Späť na slovník

Transformer

Architektúra neurónovej siete s mechanizmom pozornosti, ktorá umožnila vznik dnešných veľkých jazykových modelov.

Definícia

Transformer je typ neurónovej siete, ktorý sa stal základnou architektúrou moderných jazykových modelov ako ChatGPT či Gemini. Jeho srdcom je mechanizmus pozornosti (attention), vďaka ktorému si model pri spracovaní každého slova všíma, ktoré ďalšie slová sú preň dôležité, bez ohľadu na ich vzdialenosť v texte. Na rozdiel od starších sietí, ktoré čítali text slovo po slove, Transformer spracúva celý text naraz a paralelne, čo dramaticky zrýchlilo tréning a umožnilo modely škálovať na obrovskú veľkosť.

Kľúčové čísla

Pozornosť
Mechanizmus attention je jadro architektúry
Paralelne
Spracúva celý text naraz, nie slovo po slove
Základ LLM
Architektúra za modernými jazykovými modelmi

Príklady

  • 1Veľké jazykové modely sú v jadre obrovské Transformery
  • 2Mechanizmus pozornosti pomáha modelu pochopiť, na čo odkazuje zámeno vo vete
  • 3Paralelné spracovanie umožnilo trénovať modely na obrovských dátach

Mechanizmus pozornosti jednoducho

Srdcom Transformera je mechanizmus pozornosti. Vďaka nemu si model pri spracovaní každého slova dynamicky priraďuje dôležitosť vzťahom k ostatným slovám vo vete. Napríklad vo vete, kde sa zámeno odkazuje na skoršie podstatné meno, model venuje pozornosť práve tomu slovu. Tak zachytáva kontext aj na veľkú vzdialenosť, čo bolo pre staršie architektúry ťažké.

Praktické tipy

  • 1Transformer je dnes štandardná voľba pre prácu s jazykom
  • 2Pochopenie pozornosti pomáha chápať, prečo modely zvládajú kontext
  • 3Architektúru Transformer dnes využíva aj generovanie obrazu a zvuku

Často kladené otázky

Čo je Transformer v umelej inteligencii?

Transformer je typ neurónovej siete, ktorý pomocou mechanizmu pozornosti spracúva text naraz a paralelne. Je to základná architektúra dnešných veľkých jazykových modelov.

Čo je mechanizmus pozornosti?

Mechanizmus pozornosti umožňuje modelu pri každom slove určiť, ktoré iné slová sú preň dôležité. Vďaka tomu model zachytáva kontext a vzťahy medzi slovami aj na veľkú vzdialenosť.

Prečo Transformer nahradil staršie siete?

Staršie rekurentné siete čítali text postupne a boli pomalé. Transformer spracúva text paralelne a lepšie udrží súvislosti na veľkú vzdialenosť, preto sa dá efektívne trénovať na obrovských dátach.

Monitorujte svoju AI viditeľnosť

Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.

Začať zadarmo