Ollama: Čo to je a ako nainštalovať lokálny LLM [návod 2026]

Q: Je Ollama zadarmo?

Áno, Ollama je open-source (MIT licencia) a zadarmo na osobné aj komerčné použitie. Platíte len za hardvér a elektrinu. Niektoré modely v knižnici môžu mať vlastné licenčné podmienky (napríklad Llama 3.1 má Meta Community License) — pri komerčnom nasadení skontrolujte licenciu konkrétneho modelu.

Q: Funguje Ollama bez GPU?

Áno, beží aj na CPU — ale výrazne pomalšie. Na moderných CPU s dostatočnou RAM (16+ GB) získate pri 7B modeli rýchlosť okolo 5–15 tokenov za sekundu, čo je použiteľné pre dávkové úlohy, ale nie pre interaktívny chat. Apple Silicon Macy s unified memory dosahujú výrazne lepšie výsledky aj bez dedikovanej GPU.

Posledná aktualizácia: máj 2026

Podľa analýzy DEV Community Ollama dosiahla v Q1 2026 vyše 52 miliónov mesačných downloadov, čo je 520-násobný rast oproti 100 000 mesačne v Q1 2023. Lokálne LLM modely sa za necelé tri roky stali masovou technológiou — a Ollama je nástroj, ktorý ich sprístupnil.

Ak ste počuli pojmy ako "lokálny LLM", "self-hosted AI" alebo "$0 inference" a neviete, kde začať, tento návod vás prevedie krok po kroku. Vysvetlíme čo Ollama je, prečo má zmysel ju používať, aké modely podporuje, aký hardvér potrebujete a ako ju nainštalovať na macOS, Linux aj Windows.

Čo je Ollama

Ollama je open-source nástroj, ktorý vám umožní spustiť veľké jazykové modely (LLM) priamo na vlastnom počítači — bez API kľúča, bez cloudu a bez poplatkov za token. Funguje ako lokálny "balík" okolo runtime knižnice llama.cpp, ktorá má vyše 73 000 hviezdičiek na GitHube a tvorí základ väčšiny lokálnych inferencií.

Ollama na pozadí rieši to, čo by ste inak museli robiť ručne: kvantizáciu modelov, manažment pamäte, automatickú detekciu GPU/CPU, sťahovanie a verzovanie modelov. Pre používateľa to znamená, že spustenie modelu Llama 3.1 alebo DeepSeek je otázkou jedného príkazu v termináli.

Prečo lokálne LLM dnes dáva zmysel

Súkromie: váš text neopustí počítač — vhodné pre citlivé dáta, klientske projekty, právnické dokumenty.
Cena: po nákupe hardvéru je inferencia "zadarmo" — žiadne poplatky za milión tokenov.
Offline prístup: funguje aj bez internetu (po stiahnutí modelu).
Plná kontrola: môžete fine-tunovať, kvantizovať, kombinovať s vlastnými dátami cez RAG.
Stabilita: model sa nemení pod rukami — žiadne tiché aktualizácie API ako u OpenAI.

Cena za to: musíte mať dostatočný hardvér a najsilnejšie modely (napr. GPT-4-trieda) lokálne stále nedosiahnete bez serverového vybavenia.

Aké modely Ollama podporuje

Ollama udržiava knižnicu modelov na ollama.com/library. Podľa oficiálneho GitHub repozitára aktuálne pokrýva všetky hlavné open-source modelové rodiny:

Model	Typický prípad použitia	Veľkosť (najmenšia → najväčšia)
Llama 3.1 / 3.2	Univerzálny chat, asistent	1B / 3B / 8B / 70B / 405B
Qwen3	Reasoning, kódovanie, viacjazyčný	0.5B → 235B (MoE)
DeepSeek-R1	Reasoning model (chain-of-thought)	1.5B → 671B
Gemma 3	Google open model, multimodal	1B / 4B / 12B / 27B
Mistral / Mixtral	Európsky open model, MoE varianty	7B → 8×22B
gpt-oss	OpenAI open weights varianty	20B / 120B
Kimi-K2.5, GLM-5, MiniMax	Čínske flagship modely	do 1T parametrov (MoE)
StarCoder2	Programovanie	3B / 7B / 15B

Na HuggingFace je dnes vyše 135 000 modelov vo formáte GGUF (formát, ktorý Ollama používa) — pred tromi rokmi ich boli iba stovky.

Hardvérové požiadavky

Hardvér je najčastejší dôvod, prečo používatelia s Ollamou narazia. Tu je realistická tabuľka — odporúčania vychádzajú z analýzy LocalLLM.in 2026 a praktických testov:

Veľkosť modelu	Minimum RAM	Odporúčané RAM	VRAM (q4_K_M)	Použitie
3B	4 GB	8 GB	2–3 GB	Edge, mobilné, rýchle úlohy
7B / 8B	8 GB	16 GB	4–6 GB	Univerzálny chat, sumarizácia
13B / 14B	16 GB	32 GB	8–10 GB	Lepší reasoning, kódovanie
30B / 32B	32 GB	64 GB	20–24 GB	Pokročilé úlohy, agenty
70B	48 GB	64+ GB	48 GB	GPT-3.5-trieda lokálne

Praktické pravidlo: rátajte zhruba 0,6 GB pamäte na 1 miliardu parametrov pri kvantizácii q4_K_M, plus rezervu na kontextové okno (typicky +20–30 %).

Sweet spot pre rok 2026

Pre väčšinu používateľov je optimálny pomer cena/výkon RTX 4060 Ti s 16 GB VRAM (cca $400) alebo Apple Silicon Mac so 16 GB unified memory. Oba zvládnu modely 7B–14B v plynulej rýchlosti — a to pokryje 80 % reálnych prípadov použitia.

Novinka roku 2026: pre Windows ARM64 zariadenia (Snapdragon X Elite a podobné) Ollama dodáva natívny build, ktorý odstraňuje overhead emulácie a výrazne zrýchľuje inferenciu.

Inštalácia Ollama: krok po kroku

Ollama má jednoduchý inštalačný proces na všetkých troch hlavných platformách. Vyberte si tú vašu.

macOS

Najjednoduchšia cesta je stiahnuť oficiálnu aplikáciu:

Otvorte ollama.com/download
Kliknite Download for macOS (univerzálny build pre Intel aj Apple Silicon)
Otvorte stiahnutý .zip, presuňte Ollama.app do /Applications
Spustite aplikáciu — v stavovej lište sa objaví ikonka, ktorá indikuje beh Ollama servera

Alternatívne cez Homebrew:

brew install ollama
brew services start ollama

Linux

Oficiálny inštalačný skript funguje pre väčšinu distribúcií (Ubuntu, Debian, Fedora, Arch):

curl -fsSL https://ollama.com/install.sh | sh

Skript automaticky:

Stiahne binárku do /usr/local/bin/ollama
Vytvorí systemd službu ollama.service
Detekuje NVIDIA / AMD GPU (ak nájde, nainštaluje potrebné podporné knižnice)
Spustí službu na pozadí (port 11434)

Po inštalácii overte:

systemctl status ollama
ollama --version

Windows

Stiahnite OllamaSetup.exe z ollama.com/download
Spustite inštalátor — od roku 2026 je k dispozícii natívny ARM64 build pre Snapdragon X zariadenia
Po inštalácii sa Ollama spustí ako služba na pozadí, dostupná na http://localhost:11434
Príkazy sa zadávajú v PowerShelli alebo cmd

Pre používanie cez WSL2 odporúčame inštalovať Linux verziu vnútri WSL — získate lepší prístup k GPU cez NVIDIA CUDA on WSL.

Sledujte, či vás AI vyhľadávače citujú

Lokálne LLM sú skvelé pre testovanie, ale skutočná viditeľnosť závisí od ChatGPT, Perplexity a Google AIO. Vyskúšajte Optimalizáciu pre AI zadarmo.

Začať zadarmo →

Prvé spustenie: model za 30 sekúnd

Po inštalácii stačí jeden príkaz na stiahnutie a spustenie modelu. Začneme s Llama 3.1 8B — dobrý štartovací model:

ollama run llama3.1

Pri prvom spustení sa stiahne model (cca 4,7 GB pre 8B variantu pri q4_0 kvantizácii). Po stiahnutí sa otvorí interaktívny chat:

>>> Vysvetli mi, čo je RAG v jednej vete.
RAG (Retrieval-Augmented Generation) je technika, ktorá rozširuje
odpovede jazykového modelu o relevantné informácie získané
z externej databázy (typicky vektorovej) v reálnom čase.

>>> /bye

Príkaz /bye ukončí session. Model zostáva načítaný v pamäti niekoľko minút (rýchlejšia ďalšia inferencia), potom sa automaticky uvoľní.

Výber konkrétnej veľkosti modelu

Modely majú "tagy", ktoré určujú veľkosť a kvantizáciu. Príklady:

ollama run llama3.1:8b          # 8B parametrov (default)
ollama run llama3.1:70b         # 70B parametrov (vyžaduje 48+ GB VRAM)
ollama run qwen3:14b            # Qwen3 14B
ollama run deepseek-r1:7b       # DeepSeek R1 reasoning model
ollama run gemma3:4b            # Gemma 3, 4B parametrov
ollama run mistral:7b-instruct  # Mistral 7B s instruction tuningom

Pokročilé príkazy a Modelfile

Ollama CLI obsahuje sadu užitočných príkazov pre správu modelov:

Príkaz	Účel
`ollama list`	Zoznam stiahnutých modelov
`ollama pull qwen3:14b`	Stiahne model bez spustenia
`ollama rm llama3.1:70b`	Zmaže model z disku
`ollama ps`	Aktívne načítané modely (RAM/VRAM)
`ollama serve`	Spustí HTTP server (ak nebeží automaticky)
`ollama show llama3.1`	Detaily modelu (parametre, kontext, license)
`ollama cp src dst`	Skopíruje model pod novým menom

Modelfile: vlastný model za 5 minút

Modelfile je textový súbor (analógia Dockerfile), ktorý definuje vlastný model — typicky existujúci základ + system prompt + parametre. Príklad:

FROM llama3.1:8b

PARAMETER temperature 0.3
PARAMETER num_ctx 8192

SYSTEM """
Si odborný copywriter pre slovenský B2B SaaS.
Píšeš stručne, vecne, bez marketingových klišé.
Vždy uvádzaš zdroje pri tvrdeniach o číslach.
"""

Vytvorenie a spustenie:

ollama create copywriter-sk -f ./Modelfile
ollama run copywriter-sk

Integrácia: REST API a OpenAI kompatibilita

Ollama beží štandardne ako HTTP server na http://localhost:11434. To znamená, že ho viete volať z akéhokoľvek programovacieho jazyka.

Natívne API (curl)

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Napíš krátky tweet o lokálnych LLM.",
  "stream": false
}'

OpenAI kompatibilný endpoint

Ollama implementuje aj OpenAI Chat Completions API — môžete ju používať s openai knižnicou pre Python alebo Node.js bez úprav kódu, len zmenou base URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # placeholder, nepoužíva sa
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[{"role": "user", "content": "Vysvetli, čo je GEO."}],
)
print(response.choices[0].message.content)

Tým získate jednotné rozhranie — rovnaký kód vie volať OpenAI, Anthropic (cez proxy) aj lokálnu Ollamu.

Open WebUI: ChatGPT-like rozhranie

Open WebUI je najpopulárnejší frontend pre Ollama (vyše 90 000 hviezdičiek na GitHube). Spustenie cez Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Po spustení otvoríte http://localhost:3000 a získate plnohodnotné chat rozhranie podobné ChatGPT — s históriou, viacerými modelmi, nahrávaním dokumentov a RAG-om out of the box.

Ollama vs. cloud LLM: kedy ktoré

Faktor	Ollama (lokálne)	Cloud LLM (OpenAI, Anthropic)
Cena za inferenciu	$0 (po nákupe HW)	$0,15–$15 za milión tokenov
Súkromie dát	100 % lokálne	Závisí od poskytovateľa (logy, training)
Najsilnejší dostupný model	Llama 3.1 405B, Qwen3 235B	GPT-5, Claude Opus 4.7
Latencia (8B model)	20–100 ms na token	50–200 ms (síeť + queue)
Dostupnosť	Offline, žiadny rate limit	Vyžaduje internet, rate limity
Setup čas	5–30 minút	2 minúty (API kľúč)
Hardvérové nároky	RAM/GPU podľa modelu	Žiadne (cloud)

Praktické odporúčanie: kombinujte. Ollamu používajte na high-volume úlohy (sumarizácia logov, klasifikácia, embeddings, prototypovanie) a cloud LLM pre úlohy, kde potrebujete maximálnu kvalitu (komplexné reasoning, najnovšie znalosti, multimodálne vstupy s extrémnou presnosťou).

Najčastejšie problémy a ich riešenia

"GPU not detected" / model beží na CPU

Linux: skontrolujte, že máte nainštalované nvidia-driver a nvidia-container-toolkit (ak používate Docker). Príkaz nvidia-smi musí fungovať. Ak nie, Ollama spadne na CPU inferenciu, ktorá je 10–50× pomalšia.

Windows: aktualizujte na najnovší NVIDIA driver a reštartujte počítač. Pre AMD GPU je podpora obmedzená — odporúčame WSL2 + ROCm.

Out of memory (OOM)

Skúste menšiu kvantizáciu (napr. q3_K_M namiesto q4_K_M) alebo menší model. Príkaz ollama show <model> ukáže dostupné varianty. Tiež znížte num_ctx v Modelfile — kontextové okno môže zaberať nečakane veľa pamäte.

Pomalá inferencia (< 5 tokenov/s)

Najčastejšia príčina: model sa nezmestil do VRAM a časť beží na CPU/RAM (split inference). Skontrolujte ollama ps — ak je SIZE väčší ako vaša VRAM, model sa rozdelil. Buď zvoľte menší model, alebo použite agresívnejšiu kvantizáciu.

Port 11434 je obsadený

Iná inštancia už beží. Linux: sudo systemctl stop ollama. macOS: ukončite aplikáciu v menu lište. Alebo zmeňte port: OLLAMA_HOST=127.0.0.1:11500 ollama serve.

Záver: lokálne LLM ako súčasť modernej AI stack-u

Ollama nezastaranou cloudovú AI — robí ju komplementárnou. Pre vývojárov, dátových analytikov a firmy, ktoré pracujú s citlivými dátami, je to dnes štandardný nástroj. Začať môžete za 5 minút a s 16 GB RAM zvládnete reálne produktívne úlohy.

Ak vás zaujíma, ako AI vyhľadávače (vrátane tých postavených na týchto modeloch) hľadajú a citujú obsah, pozrite si náš návod na GEO optimalizáciu alebo článok Technical GEO: Robots.txt a AI boty.

Často kladené otázky (FAQ)

Je Ollama zadarmo?

Áno, Ollama je open-source (MIT licencia) a zadarmo na osobné aj komerčné použitie. Platíte len za hardvér a elektrinu. Niektoré modely v knižnici môžu mať vlastné licenčné podmienky (napríklad Llama 3.1 má Meta Community License) — pri komerčnom nasadení skontrolujte licenciu konkrétneho modelu.

Aký model je najlepší pre slovenčinu?

Pre slovenčinu fungujú najlepšie multilingválne modely strednej veľkosti: Qwen3 14B, Gemma 3 12B a Llama 3.1 8B. Qwen má z týchto najsilnejší reasoning, Gemma najprirodzenejší slovenský text. Pre náročnejšie úlohy odporúčame Qwen3 32B alebo Llama 3.1 70B, ak máte na to hardvér.

Funguje Ollama bez GPU?

Áno, beží aj na CPU — ale výrazne pomalšie. Na moderných CPU s dostatočnou RAM (16+ GB) získate pri 7B modeli rýchlosť okolo 5–15 tokenov za sekundu, čo je použiteľné pre dávkové úlohy, ale nie pre interaktívny chat. Apple Silicon Macy s unified memory dosahujú výrazne lepšie výsledky aj bez dedikovanej GPU.

Môžem nasadiť Ollamu produkčne?

Áno, ale s rozvahou. Pre interný nástroj do firmy je Ollama vhodná. Pre verejnú produkčnú službu s vyšším traffic-om zvážte vLLM alebo TGI (Text Generation Inference) od HuggingFace — sú optimalizované na concurrency a continuous batching, kde Ollama zaostáva. Ollama je ideálna pre 1–10 súbežných používateľov; nad to stratíte na priepustnosti.

Aký je rozdiel medzi Ollama a llama.cpp?

llama.cpp je C++ runtime knižnica, ktorá vykonáva samotnú inferenciu. Ollama je vyšší layer postavený na llama.cpp, ktorý pridáva: knižnicu modelov s ťahaním cez tagy (ako Docker images), HTTP API, OpenAI kompatibilitu, automatickú správu životnosti modelu v pamäti a CLI. Ak chcete maximálnu kontrolu, použite priamo llama.cpp; ak chcete pohodlie, Ollama.

Akú kvantizáciu zvoliť?

Default q4_K_M je dobrý kompromis pre väčšinu prípadov — strata kvality oproti FP16 je marginálna (~1–2 %), ale úspora pamäte je veľká (~75 %). Ak máte dostatok VRAM, skúste q5_K_M alebo q6_K pre lepšiu kvalitu. q8_0 je takmer FP16 kvalita za polovicu pamäte. Nižšie ako q3 zvyčajne neodporúčame — kvalita citeľne klesá.

Lokálne LLM neodhalia, či vás cituje ChatGPT alebo Perplexity

Na to potrebujete monitoring AI viditeľnosti. Vyskúšajte Optimalizáciu pre AI zadarmo — bez kreditnej karty.

Vyskúšať zadarmo →