Embedding
Zoznam čísel (vektor), ktorý zachytáva význam slova alebo textu tak, že podobné významy majú podobné čísla.
Definícia
Embedding je číselná reprezentácia významu, teda vektor zložený zo stoviek až tisícok čísel. Slová a texty s podobným významom majú podobné embeddingy, čiže v priestore významov ležia blízko seba. Vďaka tomu dokáže AI porovnávať význam, a nie len presné znenie slov. Embeddingy sú základom sémantického vyhľadávania a tvoria srdce vektorových databáz aj systémov RAG.
Kľúčové čísla
Príklady
- 1Slová „pes" a „mačka" majú podobné embeddingy, „pes" a „faktúra" nie
- 2Sémantické vyhľadávanie nájde relevantný text, aj keď použijete iné slová
- 3Vektorová databáza ukladá embeddingy a hľadá najpodobnejšie záznamy
Ako embedding zachytáva význam
Keď je text rozdelený na tokeny, model ich premení na embeddingy, teda na vektory čísel. Tieto vektory predstavujú pozíciu slova na akejsi mape významov, kde podobné slová ležia blízko seba. Embeddingy majú prekvapivú vlastnosť: s významami slov sa dá počítať, napríklad vzťah „kráľ" mínus „muž" plus „žena" sa priblíži k slovu „kráľovná".
Praktické tipy
- 1Pre vyhľadávanie podľa významu potrebujete embeddingy, nie len kľúčové slová
- 2Embeddingy z rôznych modelov nie sú navzájom kompatibilné
- 3Kvalitný a jasný obsah dáva lepšie embeddingy a lepšiu nájditeľnosť
Často kladené otázky
Čo je embedding jednoducho povedané?
Embedding je zoznam čísel, ktorý zachytáva význam slova alebo textu. Slová s podobným významom majú podobné čísla, takže model dokáže porovnávať význam, nielen presné znenie.
Ako súvisia embeddingy s vektorovými databázami?
Vektorová databáza ukladá embeddingy a vie rýchlo nájsť tie, ktoré sú významovo najbližšie k vašej otázke. Embeddingy sú teda obsahom, ktorý vektorová databáza spravuje.
Súvisia embeddingy s RAG?
Áno. RAG používa embeddingy na to, aby pre otázku našiel významovo najrelevantnejšie dokumenty, ktoré potom dodá modelu ako podklad pre odpoveď.
Súvisiace pojmy
Token (Tokenizácia)
Malý kúsok textu (slovo alebo jeho časť), na ktorý jazykový model rozdelí vstup, pretože nepracuje priamo s písmenami.
Vektorová databáza
Databáza navrhnutá na ukladanie embeddingov a vyhľadávanie podľa významovej podobnosti namiesto presnej zhody.
RAG (Retrieval Augmented Generation)
Technológia kombinujúca vyhľadávanie informácií s AI generovaním — základ fungovania Perplexity a ChatGPT web search.
Sémantické vyhľadávanie
Typ vyhľadávania, kde AI rozumie významu a kontextu otázky, nie len kľúčovým slovám — základ moderného AI aj Google vyhľadávania.
Ďalšie informácie
Monitorujte svoju AI viditeľnosť
Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.
Začať zadarmo