Neurónové siete a Transformer: architektúra za modernou AI
Neurónové siete sú výpočtové modely inšpirované mozgom a Transformer je architektúra, ktorá z nich spravila moderné LLM. Vysvetľujeme oboje jednoducho, vrátane mechanizmu pozornosti.
Neurónová sieť je výpočtový model voľne inšpirovaný ľudským mozgom, zložený z prepojených uzlov (neurónov) usporiadaných do vrstiev, ktorý sa učí rozpoznávať vzory v dátach. Transformer je konkrétny typ neurónovej siete predstavený v roku 2017, ktorý vďaka takzvanému mechanizmu pozornosti umožnil vznik dnešných veľkých jazykových modelov ako ChatGPT či Gemini.
Tento článok vysvetľuje, ako neurónové siete fungujú a prečo bol Transformer takým prelomom. Nadväzuje na naše články o deep learningu a veľkých jazykových modeloch.
Čo je neurónová sieť
Neurónová sieť sa skladá z troch typov vrstiev: vstupnej, jednej alebo viacerých skrytých a výstupnej. Každý neurón prijme čísla z predchádzajúcej vrstvy, prenásobí ich svojimi váhami, spočíta ich a výsledok pošle ďalej. Váhy sú práve tie hodnoty, ktoré sa sieť počas učenia ladí.
Predstavte si to ako sústavu ladiacich gombíkov. Na začiatku sú nastavené náhodne a sieť dáva nezmysly. Počas tréningu sa gombíky postupne otáčajú tak, aby výstup čoraz lepšie zodpovedal správnej odpovedi.
Ako sa neurónová sieť učí
Učenie prebieha opakovaním jednoduchej slučky. Sieť dostane príklad, vygeneruje odhad, porovná ho so správnou odpoveďou a vypočíta chybu. Potom pomocou techniky zvanej spätné šírenie chyby (backpropagation) upraví všetky váhy tak, aby bola chyba o niečo menšia. Tento cyklus sa zopakuje miliónkrát.
Ide o klasický príklad strojového učenia: sieť sa neučí z pravidiel, ale z príkladov a z vlastných chýb.
Čo znamená „hlboká" neurónová sieť
Keď má sieť mnoho skrytých vrstiev, hovoríme o hlbokej neurónovej sieti a o hlbokom učení (deep learning). Viac vrstiev umožňuje sieti zachytiť čoraz abstraktnejšie vzory. Pri rozpoznávaní obrazu prvé vrstvy nájdu hrany, ďalšie tvary a posledné celé objekty. Hĺbka je dôvod, prečo dnešné modely zvládajú také zložité úlohy.
Prečo bol Transformer prelom
Pred rokom 2017 spracúvali text najmä rekurentné siete, ktoré čítali slová jedno po druhom, v poradí. To bolo pomalé a sieť mala problém udržať súvislosti na veľkú vzdialenosť v texte.
Architektúra Transformer, predstavená v štúdii z roku 2017 s výstižným názvom „Attention Is All You Need", tento problém vyriešila. Umožnila spracovať celý text naraz a paralelne, čo dramaticky zrýchlilo tréning a umožnilo modely škálovať na obrovskú veľkosť.
Mechanizmus pozornosti jednoducho
Srdcom Transformera je mechanizmus pozornosti (attention). Vďaka nemu si model pri spracovaní každého slova „všíma", ktoré ďalšie slová vo vete sú preň dôležité, bez ohľadu na to, ako sú ďaleko.
Vezmime vetu „Mačka ho prenasledovala, lebo bol rýchly." Aby model pochopil, na čo odkazuje slovo „bol", musí venovať pozornosť skoršiemu slovu vo vete. Presne to attention robí: dynamicky priraďuje dôležitosť vzťahom medzi slovami a tým zachytáva kontext.
Ako Transformer poháňa jazykové modely
Veľký jazykový model je v jadre obrovský Transformer natrénovaný na predpovedanie ďalšieho tokenu. Práve kombinácia mechanizmu pozornosti, paralelného spracovania a obrovského množstva dát umožnila skok od jednoduchých modelov k systémom, ktoré píšu plynulý text, prekladajú a programujú.
Inými slovami, bez Transformera by dnešné LLM ani AI vyhľadávače neexistovali v takej podobe, ako ich poznáme.
Modely sa zmenili, pravidlá viditeľnosti tiež
AI vyhľadávače poháňané Transformermi citujú weby inak ako klasický Google. Sledujte svoju viditeľnosť.
Vyskúšať Optimalizáciu pre AI →Často kladené otázky
Je neurónová sieť to isté ako ľudský mozog?
Nie. Neurónová sieť je len voľne inšpirovaná mozgom. Pracuje s číslami a maticami, nemá vedomie ani biologické neuróny. Podobnosť je skôr metaforou než skutočnou rovnosťou.
Čo znamená Transformer v umelej inteligencii?
Transformer je typ neurónovej siete predstavený v roku 2017, ktorý pomocou mechanizmu pozornosti spracúva text naraz a paralelne. Je to základná architektúra dnešných veľkých jazykových modelov.
Čo je mechanizmus pozornosti?
Mechanizmus pozornosti umožňuje modelu pri spracovaní každého slova určiť, ktoré iné slová sú preň dôležité. Vďaka tomu model zachytáva kontext a vzťahy medzi slovami aj na veľkú vzdialenosť.
Súvisí Transformer s deep learningom?
Áno. Transformer je hlboká neurónová sieť, takže patrí do deep learningu. Je to jedna z jeho najúspešnejších architektúr, najmä pre prácu s jazykom.
Prečo nahradil Transformer staršie siete?
Staršie rekurentné siete čítali text postupne a boli pomalé. Transformer spracúva text paralelne a lepšie udrží súvislosti na veľkú vzdialenosť, preto sa dá efektívne trénovať na obrovských dátach.
Odporúčame prečítať
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo