Token (Tokenizácia)
Malý kúsok textu (slovo alebo jeho časť), na ktorý jazykový model rozdelí vstup, pretože nepracuje priamo s písmenami.
Definícia
Token je základná jednotka, s ktorou pracuje jazykový model. Keďže model nerozumie textu ale číslam, každý vstup sa najprv rozseká na tokeny, čo môžu byť celé slová, časti slov alebo interpunkčné znamienka. Tomuto procesu sa hovorí tokenizácia. Krátke a bežné slová bývajú jeden token, dlhšie alebo zriedkavé slová sa rozdelia na viac častí. Počet tokenov priamo ovplyvňuje cenu používania modelov aj veľkosť ich kontextového okna.
Kľúčové čísla
Príklady
- 1Bežné krátke slovo býva jeden token
- 2Dlhé slovo ako „optimalizácia" sa rozdelí na viac tokenov
- 3Slovenčina sa zvyčajne rozseká na viac tokenov než angličtina
Prečo na tokenoch záleží v praxi
Tokeny nie sú len technický detail. Poskytovatelia API účtujú za tokeny, nie za slová, takže dlhší a zložitejší text stojí viac. Každý model má zároveň limit, koľko tokenov spracuje naraz, čomu sa hovorí kontextové okno. Po jeho prekročení model stratí prístup k najstaršej časti textu. Slovenský text pritom spotrebuje viac tokenov než rovnaký text v angličtine.
Praktické tipy
- 1Pri práci s API rátajte náklady v tokenoch, nie v slovách
- 2Stručnejší prompt šetrí tokeny aj peniaze
- 3Pri dlhých konverzáciách sledujte limit kontextového okna
Často kladené otázky
Aký je rozdiel medzi tokenom a slovom?
Slovo je jednotka jazyka, token je jednotka, na ktorú si text rozdelí model. Krátke slovo býva jeden token, dlhšie slovo sa môže rozdeliť na viac tokenov.
Prečo slovenčina spotrebuje viac tokenov ako angličtina?
Tokenizéry boli trénované najmä na anglickom texte, takže anglické slová delia úspornejšie. Slovenské slová s diakritikou a ohýbaním sa častejšie rozpadnú na viac tokenov.
Čo je kontextové okno?
Kontextové okno je maximálny počet tokenov, ktoré model spracuje naraz, vrátane vašej otázky aj odpovede. Po jeho prekročení model stratí prístup k najstaršej časti textu.
Súvisiace pojmy
Embedding
Zoznam čísel (vektor), ktorý zachytáva význam slova alebo textu tak, že podobné významy majú podobné čísla.
Veľký jazykový model (LLM)
Typ AI modelu trénovaného na obrovskom množstve textu, schopný generovať, porozumieť a spracovať ľudský jazyk — základ AI vyhľadávačov.
Prompt (v AI kontexte)
Textový vstup (otázka, inštrukcia) zadaný AI modelu — v kontexte AI trackingu je to vyhľadávací dotaz, pre ktorý sa meria viditeľnosť.
NLP (Natural Language Processing)
Spracovanie prirodzeného jazyka — oblasť AI umožňujúca počítačom rozumieť, interpretovať a generovať ľudský jazyk.
Ďalšie informácie
Monitorujte svoju AI viditeľnosť
Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.
Začať zadarmo