Transformer
Architektúra neurónovej siete s mechanizmom pozornosti, ktorá umožnila vznik dnešných veľkých jazykových modelov.
Definícia
Transformer je typ neurónovej siete, ktorý sa stal základnou architektúrou moderných jazykových modelov ako ChatGPT či Gemini. Jeho srdcom je mechanizmus pozornosti (attention), vďaka ktorému si model pri spracovaní každého slova všíma, ktoré ďalšie slová sú preň dôležité, bez ohľadu na ich vzdialenosť v texte. Na rozdiel od starších sietí, ktoré čítali text slovo po slove, Transformer spracúva celý text naraz a paralelne, čo dramaticky zrýchlilo tréning a umožnilo modely škálovať na obrovskú veľkosť.
Kľúčové čísla
Príklady
- 1Veľké jazykové modely sú v jadre obrovské Transformery
- 2Mechanizmus pozornosti pomáha modelu pochopiť, na čo odkazuje zámeno vo vete
- 3Paralelné spracovanie umožnilo trénovať modely na obrovských dátach
Mechanizmus pozornosti jednoducho
Srdcom Transformera je mechanizmus pozornosti. Vďaka nemu si model pri spracovaní každého slova dynamicky priraďuje dôležitosť vzťahom k ostatným slovám vo vete. Napríklad vo vete, kde sa zámeno odkazuje na skoršie podstatné meno, model venuje pozornosť práve tomu slovu. Tak zachytáva kontext aj na veľkú vzdialenosť, čo bolo pre staršie architektúry ťažké.
Praktické tipy
- 1Transformer je dnes štandardná voľba pre prácu s jazykom
- 2Pochopenie pozornosti pomáha chápať, prečo modely zvládajú kontext
- 3Architektúru Transformer dnes využíva aj generovanie obrazu a zvuku
Často kladené otázky
Čo je Transformer v umelej inteligencii?
Transformer je typ neurónovej siete, ktorý pomocou mechanizmu pozornosti spracúva text naraz a paralelne. Je to základná architektúra dnešných veľkých jazykových modelov.
Čo je mechanizmus pozornosti?
Mechanizmus pozornosti umožňuje modelu pri každom slove určiť, ktoré iné slová sú preň dôležité. Vďaka tomu model zachytáva kontext a vzťahy medzi slovami aj na veľkú vzdialenosť.
Prečo Transformer nahradil staršie siete?
Staršie rekurentné siete čítali text postupne a boli pomalé. Transformer spracúva text paralelne a lepšie udrží súvislosti na veľkú vzdialenosť, preto sa dá efektívne trénovať na obrovských dátach.
Súvisiace pojmy
Neurónová sieť
Výpočtový model voľne inšpirovaný mozgom, zložený z prepojených uzlov vo vrstvách, ktorý sa učí vzory z dát.
Deep learning (Hlboké učenie)
Podoblasť strojového učenia, ktorá využíva viacvrstvové neurónové siete na učenie zložitých vzorov z dát.
Veľký jazykový model (LLM)
Typ AI modelu trénovaného na obrovskom množstve textu, schopný generovať, porozumieť a spracovať ľudský jazyk — základ AI vyhľadávačov.
Generatívna AI (Generative AI)
Umelá inteligencia, ktorá vytvára nový obsah ako text, obrázky, zvuk alebo kód, namiesto toho aby len triedila alebo predpovedala.
Ďalšie informácie
Monitorujte svoju AI viditeľnosť
Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.
Začať zadarmo