Porovnanie open-source LLM modelov v 1Q 2026
Veľké porovnanie open-source LLM modelov (1Q 2026): výkon, cena, hardvér, benchmarky a výber modelu pre nasadenie.

TL;DR: Open-source lokálne LLM modely dosiahli v 1Q 2026 úroveň, kde bežne prekonávajú proprietárne API. Gemma 4 31B vedie s 85,2 % na MMLU-Pro. Qwen 3.5 9B dosahuje 82,5 % na MMLU-Pro — viac než GPT-OSS-120B. Llama 4 Scout ponúka 10M tokenov kontextu. GLM-5 s 92,7 na AIME 2026 je najsilnejší open-source model na matematiku. Llama 4 Scout ponúka 10M tokenov kontextu. Výber závisí od hardvéru, typu úloh a rozpočtu.
Porovnanie open-source LLM modelov: benchmarky, VRAM a licencie
Tu je jedna tabuľka, ktorá ukazuje rozdiely medzi najsilnejšími open-source modelmi v 1Q 2026. Každé číslo pochádza z oficiálneho zdroja.
| Model | MMLU-Pro | Kód (LiveCodeBench v6) | Math (AIME 2026) | VRAM (BF16) | Kontext | Licencia |
|---|---|---|---|---|---|---|
| GLM-5 (744B/40B akt.) | — | — | 92,7 | enterprise | 205K | MIT |
| Gemma 4 31B | 85,2 % | 80,0 % | 89,2 % | ~58 GB | 256K | Apache 2.0 |
| Gemma 4 26B MoE | 82,6 % | 77,1 % | 88,3 % | ~48 GB | 256K | Apache 2.0 |
| DeepSeek-R1 | 84,0 % | — | — | ~120 GB | 128K | MIT |
| Qwen 3.5 9B | 82,5 % | 65,6 % | 92,5 | ~18 GB | 262K | Apache 2.0 |
| Llama 4 Scout (109B/17B akt.) | 74,3 % | 32,8 % | — | ~55 GB (Q4) | 10M | Llama |
| EXAONE 3.5 32B | — | — | — | ~64 GB | 32K | vlastná |
| DeepSeek LLM 67B | — | > LLaMA-2 70B | > LLaMA-2 70B | ~134 GB | 128K | vlastná |
Porovnanie benchmark skóre open-source LLM modelov (1Q 2026)
MMLU-Pro (vyššie = lepšie)
Matematika (AIME 2026)
Zdroje: Google DeepMind, Meta Llama 4, Qwen 3.5, GLM-5, DeepSeek-R1
Gemma 4: najvyváženejší model od Google
Google vydal Gemma 4 v apríli 2026. Model 31B obsadil 3. miesto na Arena AI text leaderboarde medzi open modelmi. MoE varianta 26B A4B aktivuje len 4 miliardy z 26 miliárd parametrov, čo výrazne znižuje nároky na výpočtový výkon (Google DeepMind, 2026). Gemma 4 je multimodálna (text, obraz, video, audio) a podporuje kontext až 256K tokenov. Pre menšie nasadenia existujú varianty E2B (~10 GB VRAM) a E4B (~15 GB VRAM).
Qwen 3.5 9B: prekvapenie roka
Alibaba Qwen 3.5 9B dosiahol 82,5 % na MMLU-Pro — viac než GPT-OSS-120B (80,8 %). Pre 9-miliardový model je to výnimočný výsledok. Na AIME 2026 dosiahol 92,5 — čo je viac než Gemma 4 31B (89,2). Podporuje kontext 262K tokenov a beží na jednom GPU s ~18 GB VRAM (Qwen 3.5, Hugging Face). Pre tímy s obmedzeným hardvérom je to najlepšia voľba pomeru výkon/veľkosť.
Llama 4 Scout: 10 miliónov tokenov kontextu
Meta vydala Llama 4 Scout v apríli 2026. Architektúra MoE s 17B aktívnymi parametrami a 109B celkovými. Hlavná výhoda: 10 miliónov tokenov kontextu — najdlhší z akéhokoľvek verejne dostupného modelu. Na MMLU-Pro dosiahol 74,3 % a na GPQA Diamond 57,2 % (Meta Llama 4). S Q4 kvantizáciou beží na ~55 GB VRAM. Pre prácu s extrémne dlhými dokumentmi (celé kódové repozitáre, právne spisy) je bez konkurencie — podobne ako pri meraní viditeľnosti v AI vyhľadávačoch, kde dlhý kontext pomáha analyzovať rozsiahle výstupy.
GLM-5: najsilnejší open-source model
Zhipu AI GLM-5 má 744 miliárd parametrov (40B aktívnych), MIT licencia, trénovaný výlučne na Huawei Ascend čipoch. Na AIME 2026 dosiahol 92,7 — blízko Claude Opus 4.5 (93,3). Na SWE-bench Verified dosiahol 77,8 % (#1 open-source). Na Humanity's Last Exam s nástrojmi dosiahol 50,4 % (GLM-5, Hugging Face). Vyžaduje enterprise hardvér (8× A100/H100), ale ukazuje kam sa open-source posúva.
DeepSeek: silná voľba pre kód a reasoning
DeepSeek-R1 dosiahol 84,0 % na MMLU-Pro (DeepSeek-R1, 2025). Pre kódovanie a logické úlohy je zaujímavý DeepSeek LLM 67B, ktorý prekonal LLaMA-2 70B v kóde, matematike a logickom uvažovaní (DeepSeek-AI, 2024).co/zai-org/GLM-5">MIT licencia), ale s 744B parametrami a požiadavkou 8× A100 nie je reálna lokálna voľba.
EXAONE 3.5 32B: špecialista na dlhé dokumenty
EXAONE 3.5 32B od LG AI Research dosiahol top výkon v testoch pre dlhý kontext medzi modelmi podobnej veľkosti (LG AI Research, 2024). Hodí sa na prácu so zmluvami, internými smernicami a rozsiahlou dokumentáciou. Kontext podporuje do 32K tokenov.
Open-source LLM vs API: lokálne alebo cez cloud: kedy sa oplatí čo
Rozhodnutie medzi lokálnym nasadením a API nie je o tom, ktorý model je lepší. Je o tom, čo ti dáva väčší zmysel ekonomicky a prevádzkovo. Kedy lokálne nasadenie:
- Spracúvaš citlivé firemné dáta (zmluvy, HR dokumenty, interné procesy)
- Máš stabilnú, predvídateľnú záťaž (denne tisíce požiadaviek rovnakého typu)
- Chceš predvídateľný mesačný rozpočet bez prekvapení
- Potrebuješ plnú kontrolu nad dátami a infraštruktúrou
- Štartuješ pilot a nevieš odhadnúť objem
- Nepotrebuješ spravovať GPU a monitoring
- Variabilná záťaž — platíš len za to, čo použiješ
- Chceš špičkovú kvalitu bez infraštruktúrnej réžie (podobný kompromis rieši aj porovnanie AI vyhľadávačov)
Zisti, ako AI vyhľadávače citujú tvoj web
Sleduj svoju viditeľnosť v Perplexity, ChatGPT, Google AIO, Gemini a Claude.
Vyskúšaj zadarmo →Hardvér a serving: čo reálne potrebuješ
Benchmark nezohľadní tvoj GPU, latenciu ani routing. Pri výbere modelu začni od hardvéru. VRAM požiadavky podľa modelu:
| Model | VRAM | Poznámka |
|---|---|---|
| Qwen 3.5 9B | ~18 GB | RTX 4070 Ti a vyššie, najlepší pomer výkon/veľkosť |
| Gemma 4 E2B | ~10 GB | Beží na bežnej grafike (RTX 3060+) |
| Gemma 4 E4B | ~15 GB | RTX 4070 Ti a vyššie |
| Gemma 4 26B MoE | ~48 GB | 2× RTX 4090 alebo A6000 |
| Llama 4 Scout (Q4) | ~55 GB | 2× RTX 4090, 10M kontext |
| Gemma 4 31B | ~58 GB | A100 80GB alebo 2× A6000 |
| EXAONE 3.5 32B | ~64 GB | A100 80GB |
| DeepSeek-R1 | ~120 GB | Multi-GPU setup |
| DeepSeek LLM 67B | ~134 GB | Multi-GPU setup |
| GLM-5 | enterprise | 8× A100/H100 minimum |
Ako vybrať model pre tvoj tím
Nerob výber podľa leaderboardu. Drž sa troch krokov:
Často kladené otázky
Ktorý open-source LLM je najlepší na kód a logiku v roku 2026?
Pre kód a reasoning je silný DeepSeek-R1 s 84,0 % na MMLU-Pro (DeepSeek-R1, 2025). Na matematiku dominuje GLM-5 s 92,7 na AIME 2026 a Qwen 3.5 9B s 92,5 — pričom Qwen 3.5 9B beží na bežnom hardvéri. Pre lokálne nasadenie na bežnom hardvéri je najlepšia voľba Qwen 3.5 9B.
Oplatí sa Gemma 4 pre open-source nasadenie na vlastnom hardvéri?
Áno, hlavne MoE varianta 26B A4B. Aktivuje len 4 miliardy z 26 miliárd parametrov, čo znižuje VRAM na ~48 GB pri benchmarkovom výkone 82,6 % na MMLU-Pro. Menšie varianty E2B a E4B bežia aj na bežných GPU od 10 GB VRAM (Google DeepMind, 2026).
Ktorý model ponúka najdlhší kontext?
Llama 4 Scout podporuje 10 miliónov tokenov — najdlhší kontext z akéhokoľvek verejne dostupného modelu. Qwen 3.5 9B podporuje 262K tokenov. Gemma 4 31B 256K tokenov. EXAONE 3.5 32B len 32K tokenov (Meta Llama 4).
Aký je najlepší model pre jednu GPU s 16-24 GB VRAM?
Qwen 3.5 9B je najlepšia voľba — 82,5 % na MMLU-Pro, 92,5 na AIME 2026, beží na ~18 GB VRAM. Gemma 4 E4B (~15 GB) je alternatíva s multimodálnou podporou. Na RTX 4090 (24 GB) zvládneš aj Llama 4 Scout s agresívnou kvantizáciou (Qwen 3.5).
Ako férovo porovnať open-source LLM modely?
Použi rovnaké prompty, rovnaký hardvér a rovnaké eval úlohy. Meraj kvalitu, latenciu aj cenu za workload — nie len jedno číslo z benchmarku.
Kedy sa viac oplatí vlastný server s open-source LLM než API?
Pri stabilnej záťaži, citlivých dátach a predvídateľnom rozpočte. Open-source modely v 1Q 2026 dosahujú kvalitu porovnateľnú s proprietárnymi API pri výrazne nižších prevádzkových nákladoch.
Aký je rozdiel medzi MoE a dense modelom?
Dense model používa všetky parametre pri každej odpovedi — napríklad Gemma 4 31B aktivuje celých 31 miliárd parametrov. MoE (Mixture of Experts) aktivuje len časť: Gemma 4 26B MoE používa 4 miliardy z 26 miliárd, Llama 4 Scout 17 miliárd zo 109 miliárd. Výsledok: MoE modely sú rýchlejšie a lacnejšie na inferenciu pri podobnej kvalite, ale vyžadujú viac VRAM na načítanie celého modelu.
Ktorý open-source LLM je najlepší na slovenčinu a češtinu?
K aprílu 2026 neexistuje verejný benchmark, ktorý by systematicky meral kvalitu open-source LLM modelov v slovenčine alebo češtine. Anglické skóre (MMLU-Pro, AIME) kvalitu v menších jazykoch nezaručia. Odporúčame otestovať 2-3 modely na vlastných slovenských/českých zadaniach — Qwen 3.5 podporuje 29 jazykov, Gemma 4 je multimodálna s širokou jazykovou podporou. Jediný spôsob, ako zistiť reálnu kvalitu, je vlastný test.
Odporúčame prečítať
Optimalizácia pre AI
Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre stovky domén.
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo