Transformer

Architektúra neurónovej siete s mechanizmom pozornosti, ktorá umožnila vznik dnešných veľkých jazykových modelov.

Definícia

Transformer je typ neurónovej siete, ktorý sa stal základnou architektúrou moderných jazykových modelov ako ChatGPT či Gemini. Jeho srdcom je mechanizmus pozornosti (attention), vďaka ktorému si model pri spracovaní každého slova všíma, ktoré ďalšie slová sú preň dôležité, bez ohľadu na ich vzdialenosť v texte. Na rozdiel od starších sietí, ktoré čítali text slovo po slove, Transformer spracúva celý text naraz a paralelne, čo dramaticky zrýchlilo tréning a umožnilo modely škálovať na obrovskú veľkosť.

Kľúčové čísla

Pozornosť

Mechanizmus attention je jadro architektúry

Paralelne

Spracúva celý text naraz, nie slovo po slove

Základ LLM

Architektúra za modernými jazykovými modelmi

Príklady

1Veľké jazykové modely sú v jadre obrovské Transformery
2Mechanizmus pozornosti pomáha modelu pochopiť, na čo odkazuje zámeno vo vete
3Paralelné spracovanie umožnilo trénovať modely na obrovských dátach

Mechanizmus pozornosti jednoducho

Srdcom Transformera je mechanizmus pozornosti. Vďaka nemu si model pri spracovaní každého slova dynamicky priraďuje dôležitosť vzťahom k ostatným slovám vo vete. Napríklad vo vete, kde sa zámeno odkazuje na skoršie podstatné meno, model venuje pozornosť práve tomu slovu. Tak zachytáva kontext aj na veľkú vzdialenosť, čo bolo pre staršie architektúry ťažké.

Praktické tipy

1Transformer je dnes štandardná voľba pre prácu s jazykom
2Pochopenie pozornosti pomáha chápať, prečo modely zvládajú kontext
3Architektúru Transformer dnes využíva aj generovanie obrazu a zvuku

Často kladené otázky

Čo je Transformer v umelej inteligencii?

Transformer je typ neurónovej siete, ktorý pomocou mechanizmu pozornosti spracúva text naraz a paralelne. Je to základná architektúra dnešných veľkých jazykových modelov.

Čo je mechanizmus pozornosti?

Mechanizmus pozornosti umožňuje modelu pri každom slove určiť, ktoré iné slová sú preň dôležité. Vďaka tomu model zachytáva kontext a vzťahy medzi slovami aj na veľkú vzdialenosť.

Prečo Transformer nahradil staršie siete?

Staršie rekurentné siete čítali text postupne a boli pomalé. Transformer spracúva text paralelne a lepšie udrží súvislosti na veľkú vzdialenosť, preto sa dá efektívne trénovať na obrovských dátach.

Súvisiace pojmy

Neurónová sieť

Výpočtový model voľne inšpirovaný mozgom, zložený z prepojených uzlov vo vrstvách, ktorý sa učí vzory z dát.

Deep learning (Hlboké učenie)

Podoblasť strojového učenia, ktorá využíva viacvrstvové neurónové siete na učenie zložitých vzorov z dát.

Veľký jazykový model (LLM)

Typ AI modelu trénovaného na obrovskom množstve textu, schopný generovať, porozumieť a spracovať ľudský jazyk — základ AI vyhľadávačov.

Generatívna AI (Generative AI)

Umelá inteligencia, ktorá vytvára nový obsah ako text, obrázky, zvuk alebo kód, namiesto toho aby len triedila alebo predpovedala.

Ďalšie informácie

Článok: Neurónové siete a Transformer Článok: Čo je to LLM

Monitorujte svoju AI viditeľnosť

Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.

Začať zadarmo