Späť na slovník

Token (Tokenizácia)

Malý kúsok textu (slovo alebo jeho časť), na ktorý jazykový model rozdelí vstup, pretože nepracuje priamo s písmenami.

Definícia

Token je základná jednotka, s ktorou pracuje jazykový model. Keďže model nerozumie textu ale číslam, každý vstup sa najprv rozseká na tokeny, čo môžu byť celé slová, časti slov alebo interpunkčné znamienka. Tomuto procesu sa hovorí tokenizácia. Krátke a bežné slová bývajú jeden token, dlhšie alebo zriedkavé slová sa rozdelia na viac častí. Počet tokenov priamo ovplyvňuje cenu používania modelov aj veľkosť ich kontextového okna.

Kľúčové čísla

Kúsok textu
Token je slovo alebo jeho časť
Cena
API sa účtuje za tokeny, nie za slová
Limit
Kontextové okno je dané v tokenoch

Príklady

  • 1Bežné krátke slovo býva jeden token
  • 2Dlhé slovo ako „optimalizácia" sa rozdelí na viac tokenov
  • 3Slovenčina sa zvyčajne rozseká na viac tokenov než angličtina

Prečo na tokenoch záleží v praxi

Tokeny nie sú len technický detail. Poskytovatelia API účtujú za tokeny, nie za slová, takže dlhší a zložitejší text stojí viac. Každý model má zároveň limit, koľko tokenov spracuje naraz, čomu sa hovorí kontextové okno. Po jeho prekročení model stratí prístup k najstaršej časti textu. Slovenský text pritom spotrebuje viac tokenov než rovnaký text v angličtine.

Praktické tipy

  • 1Pri práci s API rátajte náklady v tokenoch, nie v slovách
  • 2Stručnejší prompt šetrí tokeny aj peniaze
  • 3Pri dlhých konverzáciách sledujte limit kontextového okna

Často kladené otázky

Aký je rozdiel medzi tokenom a slovom?

Slovo je jednotka jazyka, token je jednotka, na ktorú si text rozdelí model. Krátke slovo býva jeden token, dlhšie slovo sa môže rozdeliť na viac tokenov.

Prečo slovenčina spotrebuje viac tokenov ako angličtina?

Tokenizéry boli trénované najmä na anglickom texte, takže anglické slová delia úspornejšie. Slovenské slová s diakritikou a ohýbaním sa častejšie rozpadnú na viac tokenov.

Čo je kontextové okno?

Kontextové okno je maximálny počet tokenov, ktoré model spracuje naraz, vrátane vašej otázky aj odpovede. Po jeho prekročení model stratí prístup k najstaršej časti textu.

Monitorujte svoju AI viditeľnosť

Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.

Začať zadarmo