Späť na blog
AI modely a nástroje27. júna 202610 min

Neurónové siete a Transformer: architektúra za modernou AI

Neurónové siete sú výpočtové modely inšpirované mozgom a Transformer je architektúra, ktorá z nich spravila moderné LLM. Vysvetľujeme oboje jednoducho, vrátane mechanizmu pozornosti.

Neurónové siete a Transformer: architektúra za modernou AI

Neurónová sieť je výpočtový model voľne inšpirovaný ľudským mozgom, zložený z prepojených uzlov (neurónov) usporiadaných do vrstiev, ktorý sa učí rozpoznávať vzory v dátach. Transformer je konkrétny typ neurónovej siete predstavený v roku 2017, ktorý vďaka takzvanému mechanizmu pozornosti umožnil vznik dnešných veľkých jazykových modelov ako ChatGPT či Gemini.

Tento článok vysvetľuje, ako neurónové siete fungujú a prečo bol Transformer takým prelomom. Nadväzuje na naše články o deep learningu a veľkých jazykových modeloch.

Čo je neurónová sieť

Neurónová sieť sa skladá z troch typov vrstiev: vstupnej, jednej alebo viacerých skrytých a výstupnej. Každý neurón prijme čísla z predchádzajúcej vrstvy, prenásobí ich svojimi váhami, spočíta ich a výsledok pošle ďalej. Váhy sú práve tie hodnoty, ktoré sa sieť počas učenia ladí.

Predstavte si to ako sústavu ladiacich gombíkov. Na začiatku sú nastavené náhodne a sieť dáva nezmysly. Počas tréningu sa gombíky postupne otáčajú tak, aby výstup čoraz lepšie zodpovedal správnej odpovedi.

Ako sa neurónová sieť učí

Učenie prebieha opakovaním jednoduchej slučky. Sieť dostane príklad, vygeneruje odhad, porovná ho so správnou odpoveďou a vypočíta chybu. Potom pomocou techniky zvanej spätné šírenie chyby (backpropagation) upraví všetky váhy tak, aby bola chyba o niečo menšia. Tento cyklus sa zopakuje miliónkrát.

Ide o klasický príklad strojového učenia: sieť sa neučí z pravidiel, ale z príkladov a z vlastných chýb.

Čo znamená „hlboká" neurónová sieť

Keď má sieť mnoho skrytých vrstiev, hovoríme o hlbokej neurónovej sieti a o hlbokom učení (deep learning). Viac vrstiev umožňuje sieti zachytiť čoraz abstraktnejšie vzory. Pri rozpoznávaní obrazu prvé vrstvy nájdu hrany, ďalšie tvary a posledné celé objekty. Hĺbka je dôvod, prečo dnešné modely zvládajú také zložité úlohy.

Prečo bol Transformer prelom

Pred rokom 2017 spracúvali text najmä rekurentné siete, ktoré čítali slová jedno po druhom, v poradí. To bolo pomalé a sieť mala problém udržať súvislosti na veľkú vzdialenosť v texte.

Architektúra Transformer, predstavená v štúdii z roku 2017 s výstižným názvom „Attention Is All You Need", tento problém vyriešila. Umožnila spracovať celý text naraz a paralelne, čo dramaticky zrýchlilo tréning a umožnilo modely škálovať na obrovskú veľkosť.

Mechanizmus pozornosti jednoducho

Srdcom Transformera je mechanizmus pozornosti (attention). Vďaka nemu si model pri spracovaní každého slova „všíma", ktoré ďalšie slová vo vete sú preň dôležité, bez ohľadu na to, ako sú ďaleko.

Vezmime vetu „Mačka ho prenasledovala, lebo bol rýchly." Aby model pochopil, na čo odkazuje slovo „bol", musí venovať pozornosť skoršiemu slovu vo vete. Presne to attention robí: dynamicky priraďuje dôležitosť vzťahom medzi slovami a tým zachytáva kontext.

Ako Transformer poháňa jazykové modely

Veľký jazykový model je v jadre obrovský Transformer natrénovaný na predpovedanie ďalšieho tokenu. Práve kombinácia mechanizmu pozornosti, paralelného spracovania a obrovského množstva dát umožnila skok od jednoduchých modelov k systémom, ktoré píšu plynulý text, prekladajú a programujú.

Inými slovami, bez Transformera by dnešné LLM ani AI vyhľadávače neexistovali v takej podobe, ako ich poznáme.

Modely sa zmenili, pravidlá viditeľnosti tiež

AI vyhľadávače poháňané Transformermi citujú weby inak ako klasický Google. Sledujte svoju viditeľnosť.

Vyskúšať Optimalizáciu pre AI →

Často kladené otázky

Je neurónová sieť to isté ako ľudský mozog?

Nie. Neurónová sieť je len voľne inšpirovaná mozgom. Pracuje s číslami a maticami, nemá vedomie ani biologické neuróny. Podobnosť je skôr metaforou než skutočnou rovnosťou.

Čo znamená Transformer v umelej inteligencii?

Transformer je typ neurónovej siete predstavený v roku 2017, ktorý pomocou mechanizmu pozornosti spracúva text naraz a paralelne. Je to základná architektúra dnešných veľkých jazykových modelov.

Čo je mechanizmus pozornosti?

Mechanizmus pozornosti umožňuje modelu pri spracovaní každého slova určiť, ktoré iné slová sú preň dôležité. Vďaka tomu model zachytáva kontext a vzťahy medzi slovami aj na veľkú vzdialenosť.

Súvisí Transformer s deep learningom?

Áno. Transformer je hlboká neurónová sieť, takže patrí do deep learningu. Je to jedna z jeho najúspešnejších architektúr, najmä pre prácu s jazykom.

Prečo nahradil Transformer staršie siete?

Staršie rekurentné siete čítali text postupne a boli pomalé. Transformer spracúva text paralelne a lepšie udrží súvislosti na veľkú vzdialenosť, preto sa dá efektívne trénovať na obrovských dátach.

T

Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre desiatky domén.

Zdieľať článok

Sledujte, ako AI vyhľadávače citujú váš web

Vyskúšajte Optimalizáciu pre AI zadarmo