Fine-tuning LLM modelov: čo to je, ako funguje a koľko stojí
Fine-tuning je doladenie už natrénovaného jazykového modelu. Vysvetľujeme metódy (LoRA, RLHF), kde sa dá spraviť (OpenAI, Google Vertex AI, Hugging Face), orientačné ceny, návod krok za krokom aj to, či sa oplatí.
Fine-tuning (doladenie) je proces, pri ktorom sa už natrénovaný veľký jazykový model ďalej trénuje na menšej, špecializovanej sade dát, aby sa zlepšil v konkrétnej úlohe, doméne alebo štýle. Namiesto trénovania modelu od nuly, čo je extrémne nákladné, sa využije existujúci model a iba sa „doladí". Práve fine-tuning premení všeobecný model na užitočného asistenta.
Tento článok vysvetľuje, čo fine-tuning je, ako sa líši od predtréningu, aké sú jeho metódy, kde sa dá spraviť (vrátane cien), ako pri ňom postupovať krok za krokom a kedy sa naozaj oplatí. Nadväzuje na náš článok o tom, čo je LLM.
Predtréning verzus fine-tuning: aký je rozdiel
Tréning moderného jazykového modelu prebieha v dvoch krokoch. Najprv príde predtréning, počas ktorého model prečíta obrovské množstvo textu a naučí sa všeobecne rozumieť jazyku. Táto fáza je extrémne náročná na dáta aj výpočtový výkon.
Potom nasleduje fine-tuning, kde sa model na oveľa menšej a cielenej sade príkladov naučí konkrétne správanie, napríklad odpovedať ako zákaznícky asistent alebo písať v právnickom štýle. Predtréning dáva modelu vedomosti, fine-tuning mu dáva účel.
Aké sú hlavné metódy fine-tuningu
V praxi sa používa niekoľko prístupov, ktoré sa líšia náročnosťou aj cieľom:
Úplný fine-tuning (full fine-tuning)
Pri tejto metóde sa upravujú všetky parametre modelu. Je najvýkonnejší, ale aj najdrahší, pretože si vyžaduje veľa pamäte a výpočtového výkonu. Pri dnešných modeloch s miliardami parametrov je často finančne nedostupný.
Parametricky úsporný fine-tuning (PEFT a LoRA)
Metódy ako LoRA (Low-Rank Adaptation) zmrazia pôvodný model a doladia iba malý počet nových parametrov. Výsledok je dramatický: podľa pôvodnej štúdie dokáže LoRA znížiť počet trénovaných parametrov až 10 000-násobne a nároky na grafickú pamäť 3-násobne oproti úplnému doladeniu modelu GPT-3. Vďaka tomu sa fine-tuning stal dostupným aj pre menšie firmy a dá sa zvládnuť na jedinej grafickej karte.
Inštrukčné ladenie a RLHF
Toto je metóda, ktorá premení surový jazykový model na užitočného asistenta. Model sa najprv naučí nasledovať inštrukcie a potom sa pomocou ľudskej spätnej väzby (RLHF, posilňované učenie z ľudskej spätnej väzby) naučí, ktoré odpovede ľudia preferujú. Sila tohto prístupu je obrovská: v pôvodnej štúdii ľudia uprednostnili odpovede modelu InstructGPT s 1,3 miliardy parametrov pred odpoveďami 175-miliardového modelu GPT-3, teda pred modelom stokrát väčším. Dobré doladenie tak môže prekonať aj oveľa väčší, ale nedoladený model.
Kde sa dá fine-tuning spraviť a koľko stojí
Fine-tuning si dnes nevyžaduje vlastnú serverovňu. Existujú tri hlavné cesty: hotové API od poskytovateľov modelov, cloudové platformy a doladenie open-source modelov na prenajatom výkone. Ceny nižšie sú orientačné k júnu 2026, vždy si over aktuálny cenník na oficiálnej stránke.
| Platforma | Najlepšia pre | Ako sa účtuje | Orientačná cena |
|---|---|---|---|
| OpenAI | Rýchle doladenie cez API bez vlastného hardvéru | Za tréningové tokeny (počet tokenov krát počet epoch), doladený model má drahšiu prevádzku než základný | Podľa oficiálneho cenníka OpenAI |
| Google Vertex AI | Firmy v ekosystéme Google Cloud | Za tréningové tokeny, prevádzka doladeného modelu je za rovnakú cenu ako základný | približne 3 doláre za 1 milión tréningových tokenov (Gemini 2.0 Flash) |
| Hugging Face | Open-source modely a plná kontrola nad výsledkom | Za čas prenajatej grafickej karty (po hodinách) | GPU od približne 0,40 dolára za hodinu |
Z týchto čísel vyplýva dôležitá vec: malý experiment s úsporným LoRA prístupom môže stáť doslova jednotky dolárov, zatiaľ čo plné doladenie veľkého modelu vyjde rádovo drahšie. Okrem uvedených existujú aj ďalšie možnosti ako Together AI, Replicate, Azure OpenAI či Mistral, ktoré fungujú na podobných princípoch.
Špeciálne spomenutia si zaslúži Hugging Face AutoTrain, nástroj, ktorý umožňuje doladiť model bez písania kódu cez webové rozhranie. Platíte len za výpočtový čas, takže ide o jednu z najprístupnejších ciest k vlastnému open-source modelu.
Ako fine-tuning prebieha krok za krokom
Bez ohľadu na zvolenú platformu má proces vždy rovnakú kostru. Tu je päť krokov, ktoré vás dovedú k doladenému modelu:
- Definujte cieľ. Ujasnite si, čo má model robiť inak, napríklad odpovedať v tóne vašej značky alebo vždy vracať platný formát.
- Pripravte dáta. Zozbierajte príklady vo formáte „vstup a ideálny výstup". Pri chatovacích modeloch sú to dvojice otázka a vzorová odpoveď.
- Vyberte model a metódu. Zvoľte základný model a spôsob doladenia. Pre väčšinu prípadov je úsporná metóda LoRA ideálnym kompromisom medzi cenou a výsledkom.
- Spustite tréning. Nahrajte dáta na platformu a spustite úlohu. Platforma sa postará o výpočet.
- Otestujte a nasaďte. Overte model na príkladoch, ktoré nevidel počas tréningu, a ak je dobrý, nasaďte ho do prevádzky.
Príklad: dáta vo formáte JSONL
Tréningové dáta sa najčastejšie zapisujú do súboru JSONL, kde každý riadok je jeden príklad konverzácie:
{"messages":[{"role":"system","content":"Si zdvorilý asistent slovenskej firmy."},{"role":"user","content":"Aká je vaša otváracia doba?"},{"role":"assistant","content":"Otvorené máme v pracovné dni od 8.00 do 16.00."}]}
Príklad: spustenie fine-tuningu cez OpenAI
Pri OpenAI stačí nahrať pripravený súbor a spustiť úlohu pár riadkami v Pythone:
from openai import OpenAI
client = OpenAI()
subor = client.files.create(file=open("treningove-data.jsonl", "rb"), purpose="fine-tune")
client.fine_tuning.jobs.create(training_file=subor.id, model="gpt-4o-mini-2024-07-18")
Ak nechcete písať kód, alternatívou je grafické rozhranie: OpenAI aj Hugging Face AutoTrain ponúkajú no-code prostredie, kde nahráte dáta a tréning spustíte kliknutím. Presné kroky a parametre nájdete v dokumentácii každej platformy.
Fine-tuning, RAG alebo prompt engineering?
Fine-tuning nie je vždy správna voľba. Často sa dá rovnaký cieľ dosiahnuť lacnejšie. Tu je porovnanie troch najbežnejších prístupov:
| Prístup | Na čo je najlepší | Náročnosť |
|---|---|---|
| Prompt engineering | Rýchle úpravy správania bez tréningu | Nízka |
| RAG | Dodať modelu aktuálne fakty a vlastné dokumenty | Stredná |
| Fine-tuning | Naučiť model nový štýl, formát alebo zručnosť | Vysoká |
Jednoduché pravidlo: ak modelu chýbajú znalosti (napríklad vaše interné dokumenty), zvyčajne stačí RAG. Ak mu chýba správanie alebo štýl, siahnite po fine-tuningu.
Oplatí sa fine-tuning? Zhrnutie
Fine-tuning je výkonný nástroj, ale pre väčšinu bežných potrieb je zbytočne zložitý. Oplatí sa vtedy, keď opakovane potrebujete konzistentný štýl, formát alebo úzku špecializáciu vo veľkom objeme. Ak vám stačí občas zmeniť pokyny alebo dodať fakty, takmer vždy vyjde lacnejšie a rýchlejšie prompt engineering alebo RAG. Tu sú odpovede na najčastejšie praktické otázky:
| Otázka | Odpoveď |
|---|---|
| Oplatí sa to? | Áno pri konzistentnom štýle, formáte a úzkej špecializácii vo veľkom. Nie, ak stačí prompt alebo RAG. |
| Ako dlho to trvá? | Malé doladenie metódou LoRA býva hotové za minúty až hodiny. Veľké modely a veľa dát môžu trvať aj dni. |
| Treba dáta? | Áno, kvalitné príklady sú nutnosť. Často stačí pár stoviek dobrých dvojíc vstup a výstup. |
| Je to pre bežného človeka? | Väčšina ľudí fine-tuning nepotrebuje. No-code nástroje ho sprístupňujú, ale stále si vyžaduje dáta a čas. |
| Na čo sa hodí? | Tón hlasu značky, doménová špecializácia, striktný výstupný formát, klasifikácia a štýl písania. |
Inými slovami: najprv vyskúšajte lepší prompt, potom RAG a až keď ani to nestačí, siahnite po fine-tuningu.
Čo potrebujete na fine-tuning
Základom je kvalitná sada príkladov, ktoré ukazujú modelu želané správanie. Pri inštrukčnom ladení to bývajú dvojice otázka a ideálna odpoveď. Platí, že pár stoviek skutočne kvalitných príkladov prekoná tisíce nedbalých. Druhým predpokladom je prístup k modelu s otvorenými váhami alebo k fine-tuning službe poskytovateľa, a dostatočný výpočtový výkon, ktorý si dnes jednoducho prenajmete.
Sledujte, ako AI modely citujú váš web
Či už spustíte vlastný doladený model alebo používate ChatGPT, dôležité je, aby AI vyhľadávače citovali práve vás.
Vyskúšať Optimalizáciu pre AI →Často kladené otázky
Aký je rozdiel medzi fine-tuningom a RAG?
Fine-tuning mení správanie modelu tým, že ho doladí na nových príkladoch. RAG nemení model, ale pred odpoveďou mu dodá relevantné dokumenty. Fine-tuning rieši štýl a zručnosti, RAG rieši aktuálne fakty a znalosti.
Koľko stojí fine-tuning?
Závisí od platformy, veľkosti modelu a množstva dát. Malý experiment s úspornou metódou LoRA môže stáť veľmi málo, väčšie projekty výrazne viac. Presné a aktuálne sadzby nájdete v cenníkoch OpenAI, Google Vertex AI alebo Hugging Face.
Ako dlho fine-tuning trvá?
Malé doladenie úspornou metódou býva hotové za minúty až hodiny. Pri veľkých modeloch a veľkom množstve dát môže trvať aj niekoľko dní. Príprava kvalitných dát zvyčajne zaberie viac času než samotný tréning.
Kde môžem fine-tuning spraviť?
Najčastejšie cez OpenAI API, Google Vertex AI alebo Hugging Face. Hugging Face AutoTrain navyše umožňuje doladiť open-source model bez písania kódu cez webové rozhranie.
Potrebujem na fine-tuning vlastné dáta?
Áno. Bez kvalitných príkladov sa model nemá z čoho naučiť želané správanie. Dôležitejšia ako množstvo je kvalita a konzistentnosť dát.
Je fine-tuning vhodný pre bežného používateľa?
Väčšina ľudí ho nepotrebuje, pretože vystačí s dobrým promptom alebo s RAG. No-code nástroje ho síce sprístupnili aj netechnickým používateľom, no stále si vyžaduje pripravené dáta a pochopenie cieľa.
Čo je RLHF?
RLHF znamená posilňované učenie z ľudskej spätnej väzby. Je to metóda doladenia, pri ktorej ľudia hodnotia odpovede modelu a model sa učí generovať tie, ktoré ľudia preferujú. Vďaka nej sú asistenti ako ChatGPT užitoční a bezpeční.
Odporúčame prečítať
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo