Embedding

Zoznam čísel (vektor), ktorý zachytáva význam slova alebo textu tak, že podobné významy majú podobné čísla.

Definícia

Embedding je číselná reprezentácia významu, teda vektor zložený zo stoviek až tisícok čísel. Slová a texty s podobným významom majú podobné embeddingy, čiže v priestore významov ležia blízko seba. Vďaka tomu dokáže AI porovnávať význam, a nie len presné znenie slov. Embeddingy sú základom sémantického vyhľadávania a tvoria srdce vektorových databáz aj systémov RAG.

Kľúčové čísla

Vektor

Embedding je zoznam stoviek až tisícok čísel

Význam

Podobný význam znamená podobné čísla

Základ RAG

Poháňa sémantické vyhľadávanie a RAG

Príklady

1Slová „pes" a „mačka" majú podobné embeddingy, „pes" a „faktúra" nie
2Sémantické vyhľadávanie nájde relevantný text, aj keď použijete iné slová
3Vektorová databáza ukladá embeddingy a hľadá najpodobnejšie záznamy

Ako embedding zachytáva význam

Keď je text rozdelený na tokeny, model ich premení na embeddingy, teda na vektory čísel. Tieto vektory predstavujú pozíciu slova na akejsi mape významov, kde podobné slová ležia blízko seba. Embeddingy majú prekvapivú vlastnosť: s významami slov sa dá počítať, napríklad vzťah „kráľ" mínus „muž" plus „žena" sa priblíži k slovu „kráľovná".

Praktické tipy

1Pre vyhľadávanie podľa významu potrebujete embeddingy, nie len kľúčové slová
2Embeddingy z rôznych modelov nie sú navzájom kompatibilné
3Kvalitný a jasný obsah dáva lepšie embeddingy a lepšiu nájditeľnosť

Často kladené otázky

Čo je embedding jednoducho povedané?

Embedding je zoznam čísel, ktorý zachytáva význam slova alebo textu. Slová s podobným významom majú podobné čísla, takže model dokáže porovnávať význam, nielen presné znenie.

Ako súvisia embeddingy s vektorovými databázami?

Vektorová databáza ukladá embeddingy a vie rýchlo nájsť tie, ktoré sú významovo najbližšie k vašej otázke. Embeddingy sú teda obsahom, ktorý vektorová databáza spravuje.

Súvisia embeddingy s RAG?

Áno. RAG používa embeddingy na to, aby pre otázku našiel významovo najrelevantnejšie dokumenty, ktoré potom dodá modelu ako podklad pre odpoveď.

Súvisiace pojmy

Token (Tokenizácia)

Malý kúsok textu (slovo alebo jeho časť), na ktorý jazykový model rozdelí vstup, pretože nepracuje priamo s písmenami.

Vektorová databáza

Databáza navrhnutá na ukladanie embeddingov a vyhľadávanie podľa významovej podobnosti namiesto presnej zhody.

RAG (Retrieval Augmented Generation)

Technológia kombinujúca vyhľadávanie informácií s AI generovaním — základ fungovania Perplexity a ChatGPT web search.

Sémantické vyhľadávanie

Typ vyhľadávania, kde AI rozumie významu a kontextu otázky, nie len kľúčovým slovám — základ moderného AI aj Google vyhľadávania.

Ďalšie informácie

Článok: Tokeny a embeddingy Článok: Vektorové databázy

Monitorujte svoju AI viditeľnosť

Zistite, či AI vyhľadávače citujú vašu stránku. Vyskúšajte zadarmo.

Začať zadarmo