Čo je Ollama a ako si ju nainštalovať: Kompletný návod (2026)
Ollama dosiahla v Q1 2026 vyše 52 miliónov mesačných downloadov — 520-násobný rast oproti roku 2023. Ukážeme vám, čo to je, ako ju nainštalovať a aké modely môžete spustiť lokálne na vlastnom počítači.
Posledná aktualizácia: máj 2026
Podľa analýzy DEV Community Ollama dosiahla v Q1 2026 vyše 52 miliónov mesačných downloadov, čo je 520-násobný rast oproti 100 000 mesačne v Q1 2023. Lokálne LLM modely sa za necelé tri roky stali masovou technológiou — a Ollama je nástroj, ktorý ich sprístupnil.
Ak ste počuli pojmy ako "lokálny LLM", "self-hosted AI" alebo "$0 inference" a neviete, kde začať, tento návod vás prevedie krok po kroku. Vysvetlíme čo Ollama je, prečo má zmysel ju používať, aké modely podporuje, aký hardvér potrebujete a ako ju nainštalovať na macOS, Linux aj Windows.
Čo je Ollama
Ollama je open-source nástroj, ktorý vám umožní spustiť veľké jazykové modely (LLM) priamo na vlastnom počítači — bez API kľúča, bez cloudu a bez poplatkov za token. Funguje ako lokálny "balík" okolo runtime knižnice llama.cpp, ktorá má vyše 73 000 hviezdičiek na GitHube a tvorí základ väčšiny lokálnych inferencií.
Ollama na pozadí rieši to, čo by ste inak museli robiť ručne: kvantizáciu modelov, manažment pamäte, automatickú detekciu GPU/CPU, sťahovanie a verzovanie modelov. Pre používateľa to znamená, že spustenie modelu Llama 3.1 alebo DeepSeek je otázkou jedného príkazu v termináli.
Prečo lokálne LLM dnes dáva zmysel
- Súkromie: váš text neopustí počítač — vhodné pre citlivé dáta, klientske projekty, právnické dokumenty.
- Cena: po nákupe hardvéru je inferencia "zadarmo" — žiadne poplatky za milión tokenov.
- Offline prístup: funguje aj bez internetu (po stiahnutí modelu).
- Plná kontrola: môžete fine-tunovať, kvantizovať, kombinovať s vlastnými dátami cez RAG.
- Stabilita: model sa nemení pod rukami — žiadne tiché aktualizácie API ako u OpenAI.
Cena za to: musíte mať dostatočný hardvér a najsilnejšie modely (napr. GPT-4-trieda) lokálne stále nedosiahnete bez serverového vybavenia.
Aké modely Ollama podporuje
Ollama udržiava knižnicu modelov na ollama.com/library. Podľa oficiálneho GitHub repozitára aktuálne pokrýva všetky hlavné open-source modelové rodiny:
| Model | Typický prípad použitia | Veľkosť (najmenšia → najväčšia) |
|---|---|---|
| Llama 3.1 / 3.2 | Univerzálny chat, asistent | 1B / 3B / 8B / 70B / 405B |
| Qwen3 | Reasoning, kódovanie, viacjazyčný | 0.5B → 235B (MoE) |
| DeepSeek-R1 | Reasoning model (chain-of-thought) | 1.5B → 671B |
| Gemma 3 | Google open model, multimodal | 1B / 4B / 12B / 27B |
| Mistral / Mixtral | Európsky open model, MoE varianty | 7B → 8×22B |
| gpt-oss | OpenAI open weights varianty | 20B / 120B |
| Kimi-K2.5, GLM-5, MiniMax | Čínske flagship modely | do 1T parametrov (MoE) |
| StarCoder2 | Programovanie | 3B / 7B / 15B |
Na HuggingFace je dnes vyše 135 000 modelov vo formáte GGUF (formát, ktorý Ollama používa) — pred tromi rokmi ich boli iba stovky.
Hardvérové požiadavky
Hardvér je najčastejší dôvod, prečo používatelia s Ollamou narazia. Tu je realistická tabuľka — odporúčania vychádzajú z analýzy LocalLLM.in 2026 a praktických testov:
| Veľkosť modelu | Minimum RAM | Odporúčané RAM | VRAM (q4_K_M) | Použitie |
|---|---|---|---|---|
| 3B | 4 GB | 8 GB | 2–3 GB | Edge, mobilné, rýchle úlohy |
| 7B / 8B | 8 GB | 16 GB | 4–6 GB | Univerzálny chat, sumarizácia |
| 13B / 14B | 16 GB | 32 GB | 8–10 GB | Lepší reasoning, kódovanie |
| 30B / 32B | 32 GB | 64 GB | 20–24 GB | Pokročilé úlohy, agenty |
| 70B | 48 GB | 64+ GB | 48 GB | GPT-3.5-trieda lokálne |
Praktické pravidlo: rátajte zhruba 0,6 GB pamäte na 1 miliardu parametrov pri kvantizácii q4_K_M, plus rezervu na kontextové okno (typicky +20–30 %).
Sweet spot pre rok 2026
Pre väčšinu používateľov je optimálny pomer cena/výkon RTX 4060 Ti s 16 GB VRAM (cca $400) alebo Apple Silicon Mac so 16 GB unified memory. Oba zvládnu modely 7B–14B v plynulej rýchlosti — a to pokryje 80 % reálnych prípadov použitia.
Novinka roku 2026: pre Windows ARM64 zariadenia (Snapdragon X Elite a podobné) Ollama dodáva natívny build, ktorý odstraňuje overhead emulácie a výrazne zrýchľuje inferenciu.
Inštalácia Ollama: krok po kroku
Ollama má jednoduchý inštalačný proces na všetkých troch hlavných platformách. Vyberte si tú vašu.
macOS
Najjednoduchšia cesta je stiahnuť oficiálnu aplikáciu:
- Otvorte ollama.com/download
- Kliknite Download for macOS (univerzálny build pre Intel aj Apple Silicon)
- Otvorte stiahnutý
.zip, presuňteOllama.appdo/Applications - Spustite aplikáciu — v stavovej lište sa objaví ikonka, ktorá indikuje beh Ollama servera
Alternatívne cez Homebrew:
brew install ollama
brew services start ollama
Linux
Oficiálny inštalačný skript funguje pre väčšinu distribúcií (Ubuntu, Debian, Fedora, Arch):
curl -fsSL https://ollama.com/install.sh | sh
Skript automaticky:
- Stiahne binárku do
/usr/local/bin/ollama - Vytvorí systemd službu
ollama.service - Detekuje NVIDIA / AMD GPU (ak nájde, nainštaluje potrebné podporné knižnice)
- Spustí službu na pozadí (port 11434)
Po inštalácii overte:
systemctl status ollama
ollama --version
Windows
- Stiahnite
OllamaSetup.exez ollama.com/download - Spustite inštalátor — od roku 2026 je k dispozícii natívny ARM64 build pre Snapdragon X zariadenia
- Po inštalácii sa Ollama spustí ako služba na pozadí, dostupná na
http://localhost:11434 - Príkazy sa zadávajú v PowerShelli alebo cmd
Pre používanie cez WSL2 odporúčame inštalovať Linux verziu vnútri WSL — získate lepší prístup k GPU cez NVIDIA CUDA on WSL.
Sledujte, či vás AI vyhľadávače citujú
Lokálne LLM sú skvelé pre testovanie, ale skutočná viditeľnosť závisí od ChatGPT, Perplexity a Google AIO. Vyskúšajte Optimalizáciu pre AI zadarmo.
Začať zadarmo →Prvé spustenie: model za 30 sekúnd
Po inštalácii stačí jeden príkaz na stiahnutie a spustenie modelu. Začneme s Llama 3.1 8B — dobrý štartovací model:
ollama run llama3.1
Pri prvom spustení sa stiahne model (cca 4,7 GB pre 8B variantu pri q4_0 kvantizácii). Po stiahnutí sa otvorí interaktívny chat:
>>> Vysvetli mi, čo je RAG v jednej vete.
RAG (Retrieval-Augmented Generation) je technika, ktorá rozširuje
odpovede jazykového modelu o relevantné informácie získané
z externej databázy (typicky vektorovej) v reálnom čase.
>>> /bye
Príkaz /bye ukončí session. Model zostáva načítaný v pamäti niekoľko minút (rýchlejšia ďalšia inferencia), potom sa automaticky uvoľní.
Výber konkrétnej veľkosti modelu
Modely majú "tagy", ktoré určujú veľkosť a kvantizáciu. Príklady:
ollama run llama3.1:8b # 8B parametrov (default)
ollama run llama3.1:70b # 70B parametrov (vyžaduje 48+ GB VRAM)
ollama run qwen3:14b # Qwen3 14B
ollama run deepseek-r1:7b # DeepSeek R1 reasoning model
ollama run gemma3:4b # Gemma 3, 4B parametrov
ollama run mistral:7b-instruct # Mistral 7B s instruction tuningom
Pokročilé príkazy a Modelfile
Ollama CLI obsahuje sadu užitočných príkazov pre správu modelov:
| Príkaz | Účel |
|---|---|
ollama list | Zoznam stiahnutých modelov |
ollama pull qwen3:14b | Stiahne model bez spustenia |
ollama rm llama3.1:70b | Zmaže model z disku |
ollama ps | Aktívne načítané modely (RAM/VRAM) |
ollama serve | Spustí HTTP server (ak nebeží automaticky) |
ollama show llama3.1 | Detaily modelu (parametre, kontext, license) |
ollama cp src dst | Skopíruje model pod novým menom |
Modelfile: vlastný model za 5 minút
Modelfile je textový súbor (analógia Dockerfile), ktorý definuje vlastný model — typicky existujúci základ + system prompt + parametre. Príklad:
FROM llama3.1:8b
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
SYSTEM """
Si odborný copywriter pre slovenský B2B SaaS.
Píšeš stručne, vecne, bez marketingových klišé.
Vždy uvádzaš zdroje pri tvrdeniach o číslach.
"""
Vytvorenie a spustenie:
ollama create copywriter-sk -f ./Modelfile
ollama run copywriter-sk
Integrácia: REST API a OpenAI kompatibilita
Ollama beží štandardne ako HTTP server na http://localhost:11434. To znamená, že ho viete volať z akéhokoľvek programovacieho jazyka.
Natívne API (curl)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Napíš krátky tweet o lokálnych LLM.",
"stream": false
}'
OpenAI kompatibilný endpoint
Ollama implementuje aj OpenAI Chat Completions API — môžete ju používať s openai knižnicou pre Python alebo Node.js bez úprav kódu, len zmenou base URL:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # placeholder, nepoužíva sa
)
response = client.chat.completions.create(
model="llama3.1",
messages=[{"role": "user", "content": "Vysvetli, čo je GEO."}],
)
print(response.choices[0].message.content)
Tým získate jednotné rozhranie — rovnaký kód vie volať OpenAI, Anthropic (cez proxy) aj lokálnu Ollamu.
Open WebUI: ChatGPT-like rozhranie
Open WebUI je najpopulárnejší frontend pre Ollama (vyše 90 000 hviezdičiek na GitHube). Spustenie cez Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Po spustení otvoríte http://localhost:3000 a získate plnohodnotné chat rozhranie podobné ChatGPT — s históriou, viacerými modelmi, nahrávaním dokumentov a RAG-om out of the box.
Ollama vs. cloud LLM: kedy ktoré
| Faktor | Ollama (lokálne) | Cloud LLM (OpenAI, Anthropic) |
|---|---|---|
| Cena za inferenciu | $0 (po nákupe HW) | $0,15–$15 za milión tokenov |
| Súkromie dát | 100 % lokálne | Závisí od poskytovateľa (logy, training) |
| Najsilnejší dostupný model | Llama 3.1 405B, Qwen3 235B | GPT-5, Claude Opus 4.7 |
| Latencia (8B model) | 20–100 ms na token | 50–200 ms (síeť + queue) |
| Dostupnosť | Offline, žiadny rate limit | Vyžaduje internet, rate limity |
| Setup čas | 5–30 minút | 2 minúty (API kľúč) |
| Hardvérové nároky | RAM/GPU podľa modelu | Žiadne (cloud) |
Praktické odporúčanie: kombinujte. Ollamu používajte na high-volume úlohy (sumarizácia logov, klasifikácia, embeddings, prototypovanie) a cloud LLM pre úlohy, kde potrebujete maximálnu kvalitu (komplexné reasoning, najnovšie znalosti, multimodálne vstupy s extrémnou presnosťou).
Najčastejšie problémy a ich riešenia
"GPU not detected" / model beží na CPU
Linux: skontrolujte, že máte nainštalované nvidia-driver a nvidia-container-toolkit (ak používate Docker). Príkaz nvidia-smi musí fungovať. Ak nie, Ollama spadne na CPU inferenciu, ktorá je 10–50× pomalšia.
Windows: aktualizujte na najnovší NVIDIA driver a reštartujte počítač. Pre AMD GPU je podpora obmedzená — odporúčame WSL2 + ROCm.
Out of memory (OOM)
Skúste menšiu kvantizáciu (napr. q3_K_M namiesto q4_K_M) alebo menší model. Príkaz ollama show <model> ukáže dostupné varianty. Tiež znížte num_ctx v Modelfile — kontextové okno môže zaberať nečakane veľa pamäte.
Pomalá inferencia (< 5 tokenov/s)
Najčastejšia príčina: model sa nezmestil do VRAM a časť beží na CPU/RAM (split inference). Skontrolujte ollama ps — ak je SIZE väčší ako vaša VRAM, model sa rozdelil. Buď zvoľte menší model, alebo použite agresívnejšiu kvantizáciu.
Port 11434 je obsadený
Iná inštancia už beží. Linux: sudo systemctl stop ollama. macOS: ukončite aplikáciu v menu lište. Alebo zmeňte port: OLLAMA_HOST=127.0.0.1:11500 ollama serve.
Záver: lokálne LLM ako súčasť modernej AI stack-u
Ollama nezastaranou cloudovú AI — robí ju komplementárnou. Pre vývojárov, dátových analytikov a firmy, ktoré pracujú s citlivými dátami, je to dnes štandardný nástroj. Začať môžete za 5 minút a s 16 GB RAM zvládnete reálne produktívne úlohy.
Ak vás zaujíma, ako AI vyhľadávače (vrátane tých postavených na týchto modeloch) hľadajú a citujú obsah, pozrite si náš návod na GEO optimalizáciu alebo článok Technical GEO: Robots.txt a AI boty.
Často kladené otázky (FAQ)
Je Ollama zadarmo?
Áno, Ollama je open-source (MIT licencia) a zadarmo na osobné aj komerčné použitie. Platíte len za hardvér a elektrinu. Niektoré modely v knižnici môžu mať vlastné licenčné podmienky (napríklad Llama 3.1 má Meta Community License) — pri komerčnom nasadení skontrolujte licenciu konkrétneho modelu.
Aký model je najlepší pre slovenčinu?
Pre slovenčinu fungujú najlepšie multilingválne modely strednej veľkosti: Qwen3 14B, Gemma 3 12B a Llama 3.1 8B. Qwen má z týchto najsilnejší reasoning, Gemma najprirodzenejší slovenský text. Pre náročnejšie úlohy odporúčame Qwen3 32B alebo Llama 3.1 70B, ak máte na to hardvér.
Funguje Ollama bez GPU?
Áno, beží aj na CPU — ale výrazne pomalšie. Na moderných CPU s dostatočnou RAM (16+ GB) získate pri 7B modeli rýchlosť okolo 5–15 tokenov za sekundu, čo je použiteľné pre dávkové úlohy, ale nie pre interaktívny chat. Apple Silicon Macy s unified memory dosahujú výrazne lepšie výsledky aj bez dedikovanej GPU.
Môžem nasadiť Ollamu produkčne?
Áno, ale s rozvahou. Pre interný nástroj do firmy je Ollama vhodná. Pre verejnú produkčnú službu s vyšším traffic-om zvážte vLLM alebo TGI (Text Generation Inference) od HuggingFace — sú optimalizované na concurrency a continuous batching, kde Ollama zaostáva. Ollama je ideálna pre 1–10 súbežných používateľov; nad to stratíte na priepustnosti.
Aký je rozdiel medzi Ollama a llama.cpp?
llama.cpp je C++ runtime knižnica, ktorá vykonáva samotnú inferenciu. Ollama je vyšší layer postavený na llama.cpp, ktorý pridáva: knižnicu modelov s ťahaním cez tagy (ako Docker images), HTTP API, OpenAI kompatibilitu, automatickú správu životnosti modelu v pamäti a CLI. Ak chcete maximálnu kontrolu, použite priamo llama.cpp; ak chcete pohodlie, Ollama.
Akú kvantizáciu zvoliť?
Default q4_K_M je dobrý kompromis pre väčšinu prípadov — strata kvality oproti FP16 je marginálna (~1–2 %), ale úspora pamäte je veľká (~75 %). Ak máte dostatok VRAM, skúste q5_K_M alebo q6_K pre lepšiu kvalitu. q8_0 je takmer FP16 kvalita za polovicu pamäte. Nižšie ako q3 zvyčajne neodporúčame — kvalita citeľne klesá.
Lokálne LLM neodhalia, či vás cituje ChatGPT alebo Perplexity
Na to potrebujete monitoring AI viditeľnosti. Vyskúšajte Optimalizáciu pre AI zadarmo — bez kreditnej karty.
Vyskúšať zadarmo →Odporúčame prečítať
Ing. Lukáš Szudár
Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre desiatky domén.
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo