Token (Tokenizácia)

Malý kúsok textu (slovo alebo jeho časť), na ktorý jazykový model rozdelí vstup, pretože nepracuje priamo s písmenami.

Definícia

Token je základná jednotka, s ktorou pracuje jazykový model. Keďže model nerozumie textu ale číslam, každý vstup sa najprv rozseká na tokeny, čo môžu byť celé slová, časti slov alebo interpunkčné znamienka. Tomuto procesu sa hovorí tokenizácia. Krátke a bežné slová bývajú jeden token, dlhšie alebo zriedkavé slová sa rozdelia na viac častí. Počet tokenov priamo ovplyvňuje cenu používania modelov aj veľkosť ich kontextového okna.

Kľúčové čísla

Kúsok textu

Token je slovo alebo jeho časť

Cena

API sa účtuje za tokeny, nie za slová

Limit

Kontextové okno je dané v tokenoch

Príklady

1Bežné krátke slovo býva jeden token
2Dlhé slovo ako „optimalizácia" sa rozdelí na viac tokenov
3Slovenčina sa zvyčajne rozseká na viac tokenov než angličtina

Prečo na tokenoch záleží v praxi

Tokeny nie sú len technický detail. Poskytovatelia API účtujú za tokeny, nie za slová, takže dlhší a zložitejší text stojí viac. Každý model má zároveň limit, koľko tokenov spracuje naraz, čomu sa hovorí kontextové okno. Po jeho prekročení model stratí prístup k najstaršej časti textu. Slovenský text pritom spotrebuje viac tokenov než rovnaký text v angličtine.

Praktické tipy

1Pri práci s API rátajte náklady v tokenoch, nie v slovách
2Stručnejší prompt šetrí tokeny aj peniaze
3Pri dlhých konverzáciách sledujte limit kontextového okna

Často kladené otázky

Aký je rozdiel medzi tokenom a slovom?

Slovo je jednotka jazyka, token je jednotka, na ktorú si text rozdelí model. Krátke slovo býva jeden token, dlhšie slovo sa môže rozdeliť na viac tokenov.

Prečo slovenčina spotrebuje viac tokenov ako angličtina?

Tokenizéry boli trénované najmä na anglickom texte, takže anglické slová delia úspornejšie. Slovenské slová s diakritikou a ohýbaním sa častejšie rozpadnú na viac tokenov.

Čo je kontextové okno?

Kontextové okno je maximálny počet tokenov, ktoré model spracuje naraz, vrátane vašej otázky aj odpovede. Po jeho prekročení model stratí prístup k najstaršej časti textu.

Súvisiace pojmy

Embedding

Zoznam čísel (vektor), ktorý zachytáva význam slova alebo textu tak, že podobné významy majú podobné čísla.

Veľký jazykový model (LLM)

Typ AI modelu trénovaného na obrovskom množstve textu, schopný generovať, porozumieť a spracovať ľudský jazyk — základ AI vyhľadávačov.

Prompt (v AI kontexte)

Textový vstup (otázka, inštrukcia) zadaný AI modelu — v kontexte AI trackingu je to vyhľadávací dotaz, pre ktorý sa meria viditeľnosť.

NLP (Natural Language Processing)

Spracovanie prirodzeného jazyka — oblasť AI umožňujúca počítačom rozumieť, interpretovať a generovať ľudský jazyk.

Ďalšie informácie

Článok: Tokeny a embeddingy Článok: Čo je to LLM

Predchádzajúci

Generatívna AI (Generative AI)

Ďalší

Embedding

Monitorujte svoju AI viditeľnosť

Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.

Začať zadarmo