Tokeny a embeddingy: ako LLM rozumie textu
Tokeny sú kúsky textu, na ktoré model rozdelí jazyk, a embeddingy sú čísla, ktoré zachytávajú ich význam. Vysvetľujeme oba pojmy jednoducho a prečo sú kľúčové pre AI vyhľadávanie.
Tokeny sú malé kúsky textu (slová alebo ich časti), na ktoré jazykový model rozdelí každý vstup, pretože nepracuje priamo s písmenami. Embeddingy sú zoznamy čísel (vektory), ktoré zachytávajú význam týchto tokenov tak, aby slová s podobným významom mali podobné čísla. Spolu tvoria spôsob, akým AI „rozumie" jazyku, hoci v skutočnosti pracuje len s číslami.
Tento článok vysvetľuje oba pojmy bez matematiky a ukazuje, prečo sú dôležité pre veľké jazykové modely aj pre AI vyhľadávanie.
Čo je token a prečo modely nepracujú so slovami
Počítač nerozumie textu, rozumie číslam. Preto prvým krokom pri spracovaní jazyka je tokenizácia, teda rozdelenie textu na menšie jednotky zvané tokeny. Token môže byť celé slovo, časť slova alebo dokonca interpunkčné znamienko.
Krátke a bežné slová bývajú jeden token, zatiaľ čo dlhšie alebo zriedkavé slová sa rozdelia na viacero častí. Napríklad slovo „optimalizácia" sa môže rozsekať na niekoľko tokenov. Populárnou metódou takéhoto delenia je Byte-Pair Encoding, ktorú pre jazykové modely spopularizovala štúdia z roku 2015.
Prečo na tokenoch záleží v praxi
Tokeny nie sú len technický detail. Majú priamy dopad na to, ako modely používate:
- Cena. API poskytovateľov sa účtuje za tokeny, nie za slová. Dlhší a zložitejší text stojí viac.
- Kontextové okno. Každý model má limit, koľko tokenov dokáže spracovať naraz. Keď ho prekročíte, model „zabudne" začiatok konverzácie.
- Jazyk. Slovenčina sa zvyčajne rozdelí na viac tokenov než angličtina, takže rovnaký text v slovenčine spotrebuje viac tokenov.
Čo je embedding a ako zachytáva význam
Keď je text rozdelený na tokeny, model ich potrebuje previesť na čísla, ktoré nesú význam. Tu prichádza embedding: každý token sa premení na vektor, teda zoznam stoviek až tisícok čísel. Tento vektor predstavuje pozíciu slova v akejsi mape významov.
Kľúčová myšlienka je, že slová s podobným významom ležia na tejto mape blízko seba. Slová „pes" a „mačka" budú mať podobné vektory, zatiaľ čo „pes" a „faktúra" budú ďaleko od seba. Tento prístup priniesla do praxe metóda word2vec, predstavená v štúdii z roku 2013.
Slávny príklad: matematika s významom slov
Embeddingy majú prekvapivú vlastnosť: s významami slov sa dá počítať. Najznámejším príkladom je vzťah, kde keď od vektora slova „kráľ" odčítate „muž" a pridáte „žena", dostanete sa veľmi blízko k vektoru slova „kráľovná".
Tento jednoduchý príklad ukazuje, že model nezachytáva len slová, ale aj vzťahy medzi nimi. Práve schopnosť reprezentovať význam číslami umožňuje moderným modelom pracovať s jazykom tak plynulo.
Ako embeddingy poháňajú AI vyhľadávanie
Embeddingy sú základom takzvaného sémantického vyhľadávania, ktoré nehľadá zhodu kľúčových slov, ale zhodu významu. Dokumenty aj otázka sa prevedú na vektory a systém nájde tie, ktoré sú si významovo najbližšie.
Tieto vektory sa ukladajú do špecializovaných vektorových databáz a tvoria srdce systémov RAG, ktoré poháňajú AI vyhľadávače ako Perplexity. Vďaka embeddingom vie AI nájsť relevantnú pasáž, aj keď ste použili úplne iné slová než sú v texte.
Čo to znamená pre obsah vášho webu
Keďže AI vyhľadávače pracujú s významom, a nie len s presnými kľúčovými slovami, najlepšie funguje obsah, ktorý tému pokrýva jasne a do hĺbky. Namiesto opakovania jednej frázy sa oplatí prirodzene vysvetliť tému, súvisiace pojmy a otázky používateľov.
Presne tento prístup odporúčame v sprievodcovi AI optimalizáciou a v článku ako zvýšiť viditeľnosť v AI.
Rozumie AI vášmu obsahu?
Sledujte, ako AI vyhľadávače chápu a citujú váš web naprieč ChatGPT, Gemini a Perplexity.
Vyskúšať Optimalizáciu pre AI →Často kladené otázky
Aký je rozdiel medzi tokenom a slovom?
Slovo je jednotka jazyka, token je jednotka, na ktorú si text rozdelí model. Krátke slovo býva jeden token, ale dlhšie slovo sa môže rozdeliť na viacero tokenov. Token preto nie je to isté ako slovo.
Čo je embedding jednoducho povedané?
Embedding je zoznam čísel, ktorý zachytáva význam slova alebo textu. Slová s podobným významom majú podobné čísla, takže model dokáže porovnávať význam, nielen presné znenie.
Prečo slovenčina spotrebuje viac tokenov ako angličtina?
Tokenizéry boli trénované najmä na anglickom texte, takže anglické slová delia úspornejšie. Slovenské slová s diakritikou a ohýbaním sa preto častejšie rozpadnú na viac tokenov.
Čo je kontextové okno?
Kontextové okno je maximálny počet tokenov, ktoré model dokáže spracovať naraz, vrátane vašej otázky aj svojej odpovede. Keď ho prekročíte, model stratí prístup k najstaršej časti textu.
Súvisia embeddingy s RAG?
Áno, veľmi úzko. RAG používa embeddingy na to, aby pre vašu otázku našiel významovo najrelevantnejšie dokumenty, ktoré potom dodá modelu ako podklad pre odpoveď.
Odporúčame prečítať
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo