Späť na blog
AI nástroje1. mája 202614 min

Čo je Ollama a ako si ju nainštalovať: Kompletný návod (2026)

Ollama dosiahla v Q1 2026 vyše 52 miliónov mesačných downloadov — 520-násobný rast oproti roku 2023. Ukážeme vám, čo to je, ako ju nainštalovať a aké modely môžete spustiť lokálne na vlastnom počítači.

Čo je Ollama a ako si ju nainštalovať: Kompletný návod (2026)

Posledná aktualizácia: máj 2026

Podľa analýzy DEV Community Ollama dosiahla v Q1 2026 vyše 52 miliónov mesačných downloadov, čo je 520-násobný rast oproti 100 000 mesačne v Q1 2023. Lokálne LLM modely sa za necelé tri roky stali masovou technológiou — a Ollama je nástroj, ktorý ich sprístupnil.

Ak ste počuli pojmy ako "lokálny LLM", "self-hosted AI" alebo "$0 inference" a neviete, kde začať, tento návod vás prevedie krok po kroku. Vysvetlíme čo Ollama je, prečo má zmysel ju používať, aké modely podporuje, aký hardvér potrebujete a ako ju nainštalovať na macOS, Linux aj Windows.

Čo je Ollama

Ollama je open-source nástroj, ktorý vám umožní spustiť veľké jazykové modely (LLM) priamo na vlastnom počítači — bez API kľúča, bez cloudu a bez poplatkov za token. Funguje ako lokálny "balík" okolo runtime knižnice llama.cpp, ktorá má vyše 73 000 hviezdičiek na GitHube a tvorí základ väčšiny lokálnych inferencií.

Ollama na pozadí rieši to, čo by ste inak museli robiť ručne: kvantizáciu modelov, manažment pamäte, automatickú detekciu GPU/CPU, sťahovanie a verzovanie modelov. Pre používateľa to znamená, že spustenie modelu Llama 3.1 alebo DeepSeek je otázkou jedného príkazu v termináli.

Prečo lokálne LLM dnes dáva zmysel

  • Súkromie: váš text neopustí počítač — vhodné pre citlivé dáta, klientske projekty, právnické dokumenty.
  • Cena: po nákupe hardvéru je inferencia "zadarmo" — žiadne poplatky za milión tokenov.
  • Offline prístup: funguje aj bez internetu (po stiahnutí modelu).
  • Plná kontrola: môžete fine-tunovať, kvantizovať, kombinovať s vlastnými dátami cez RAG.
  • Stabilita: model sa nemení pod rukami — žiadne tiché aktualizácie API ako u OpenAI.

Cena za to: musíte mať dostatočný hardvér a najsilnejšie modely (napr. GPT-4-trieda) lokálne stále nedosiahnete bez serverového vybavenia.

Aké modely Ollama podporuje

Ollama udržiava knižnicu modelov na ollama.com/library. Podľa oficiálneho GitHub repozitára aktuálne pokrýva všetky hlavné open-source modelové rodiny:

Model Typický prípad použitia Veľkosť (najmenšia → najväčšia)
Llama 3.1 / 3.2Univerzálny chat, asistent1B / 3B / 8B / 70B / 405B
Qwen3Reasoning, kódovanie, viacjazyčný0.5B → 235B (MoE)
DeepSeek-R1Reasoning model (chain-of-thought)1.5B → 671B
Gemma 3Google open model, multimodal1B / 4B / 12B / 27B
Mistral / MixtralEurópsky open model, MoE varianty7B → 8×22B
gpt-ossOpenAI open weights varianty20B / 120B
Kimi-K2.5, GLM-5, MiniMaxČínske flagship modelydo 1T parametrov (MoE)
StarCoder2Programovanie3B / 7B / 15B

Na HuggingFace je dnes vyše 135 000 modelov vo formáte GGUF (formát, ktorý Ollama používa) — pred tromi rokmi ich boli iba stovky.

Hardvérové požiadavky

Hardvér je najčastejší dôvod, prečo používatelia s Ollamou narazia. Tu je realistická tabuľka — odporúčania vychádzajú z analýzy LocalLLM.in 2026 a praktických testov:

Veľkosť modelu Minimum RAM Odporúčané RAM VRAM (q4_K_M) Použitie
3B4 GB8 GB2–3 GBEdge, mobilné, rýchle úlohy
7B / 8B8 GB16 GB4–6 GBUniverzálny chat, sumarizácia
13B / 14B16 GB32 GB8–10 GBLepší reasoning, kódovanie
30B / 32B32 GB64 GB20–24 GBPokročilé úlohy, agenty
70B48 GB64+ GB48 GBGPT-3.5-trieda lokálne

Praktické pravidlo: rátajte zhruba 0,6 GB pamäte na 1 miliardu parametrov pri kvantizácii q4_K_M, plus rezervu na kontextové okno (typicky +20–30 %).

Sweet spot pre rok 2026

Pre väčšinu používateľov je optimálny pomer cena/výkon RTX 4060 Ti s 16 GB VRAM (cca $400) alebo Apple Silicon Mac so 16 GB unified memory. Oba zvládnu modely 7B–14B v plynulej rýchlosti — a to pokryje 80 % reálnych prípadov použitia.

Novinka roku 2026: pre Windows ARM64 zariadenia (Snapdragon X Elite a podobné) Ollama dodáva natívny build, ktorý odstraňuje overhead emulácie a výrazne zrýchľuje inferenciu.

Inštalácia Ollama: krok po kroku

Ollama má jednoduchý inštalačný proces na všetkých troch hlavných platformách. Vyberte si tú vašu.

macOS

Najjednoduchšia cesta je stiahnuť oficiálnu aplikáciu:

  1. Otvorte ollama.com/download
  2. Kliknite Download for macOS (univerzálny build pre Intel aj Apple Silicon)
  3. Otvorte stiahnutý .zip, presuňte Ollama.app do /Applications
  4. Spustite aplikáciu — v stavovej lište sa objaví ikonka, ktorá indikuje beh Ollama servera

Alternatívne cez Homebrew:

brew install ollama
brew services start ollama

Linux

Oficiálny inštalačný skript funguje pre väčšinu distribúcií (Ubuntu, Debian, Fedora, Arch):

curl -fsSL https://ollama.com/install.sh | sh

Skript automaticky:

  • Stiahne binárku do /usr/local/bin/ollama
  • Vytvorí systemd službu ollama.service
  • Detekuje NVIDIA / AMD GPU (ak nájde, nainštaluje potrebné podporné knižnice)
  • Spustí službu na pozadí (port 11434)

Po inštalácii overte:

systemctl status ollama
ollama --version

Windows

  1. Stiahnite OllamaSetup.exe z ollama.com/download
  2. Spustite inštalátor — od roku 2026 je k dispozícii natívny ARM64 build pre Snapdragon X zariadenia
  3. Po inštalácii sa Ollama spustí ako služba na pozadí, dostupná na http://localhost:11434
  4. Príkazy sa zadávajú v PowerShelli alebo cmd

Pre používanie cez WSL2 odporúčame inštalovať Linux verziu vnútri WSL — získate lepší prístup k GPU cez NVIDIA CUDA on WSL.

Sledujte, či vás AI vyhľadávače citujú

Lokálne LLM sú skvelé pre testovanie, ale skutočná viditeľnosť závisí od ChatGPT, Perplexity a Google AIO. Vyskúšajte Optimalizáciu pre AI zadarmo.

Začať zadarmo →

Prvé spustenie: model za 30 sekúnd

Po inštalácii stačí jeden príkaz na stiahnutie a spustenie modelu. Začneme s Llama 3.1 8B — dobrý štartovací model:

ollama run llama3.1

Pri prvom spustení sa stiahne model (cca 4,7 GB pre 8B variantu pri q4_0 kvantizácii). Po stiahnutí sa otvorí interaktívny chat:

>>> Vysvetli mi, čo je RAG v jednej vete.
RAG (Retrieval-Augmented Generation) je technika, ktorá rozširuje
odpovede jazykového modelu o relevantné informácie získané
z externej databázy (typicky vektorovej) v reálnom čase.

>>> /bye

Príkaz /bye ukončí session. Model zostáva načítaný v pamäti niekoľko minút (rýchlejšia ďalšia inferencia), potom sa automaticky uvoľní.

Výber konkrétnej veľkosti modelu

Modely majú "tagy", ktoré určujú veľkosť a kvantizáciu. Príklady:

ollama run llama3.1:8b          # 8B parametrov (default)
ollama run llama3.1:70b         # 70B parametrov (vyžaduje 48+ GB VRAM)
ollama run qwen3:14b            # Qwen3 14B
ollama run deepseek-r1:7b       # DeepSeek R1 reasoning model
ollama run gemma3:4b            # Gemma 3, 4B parametrov
ollama run mistral:7b-instruct  # Mistral 7B s instruction tuningom

Pokročilé príkazy a Modelfile

Ollama CLI obsahuje sadu užitočných príkazov pre správu modelov:

PríkazÚčel
ollama listZoznam stiahnutých modelov
ollama pull qwen3:14bStiahne model bez spustenia
ollama rm llama3.1:70bZmaže model z disku
ollama psAktívne načítané modely (RAM/VRAM)
ollama serveSpustí HTTP server (ak nebeží automaticky)
ollama show llama3.1Detaily modelu (parametre, kontext, license)
ollama cp src dstSkopíruje model pod novým menom

Modelfile: vlastný model za 5 minút

Modelfile je textový súbor (analógia Dockerfile), ktorý definuje vlastný model — typicky existujúci základ + system prompt + parametre. Príklad:

FROM llama3.1:8b

PARAMETER temperature 0.3
PARAMETER num_ctx 8192

SYSTEM """
Si odborný copywriter pre slovenský B2B SaaS.
Píšeš stručne, vecne, bez marketingových klišé.
Vždy uvádzaš zdroje pri tvrdeniach o číslach.
"""

Vytvorenie a spustenie:

ollama create copywriter-sk -f ./Modelfile
ollama run copywriter-sk

Integrácia: REST API a OpenAI kompatibilita

Ollama beží štandardne ako HTTP server na http://localhost:11434. To znamená, že ho viete volať z akéhokoľvek programovacieho jazyka.

Natívne API (curl)

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Napíš krátky tweet o lokálnych LLM.",
  "stream": false
}'

OpenAI kompatibilný endpoint

Ollama implementuje aj OpenAI Chat Completions API — môžete ju používať s openai knižnicou pre Python alebo Node.js bez úprav kódu, len zmenou base URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # placeholder, nepoužíva sa
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[{"role": "user", "content": "Vysvetli, čo je GEO."}],
)
print(response.choices[0].message.content)

Tým získate jednotné rozhranie — rovnaký kód vie volať OpenAI, Anthropic (cez proxy) aj lokálnu Ollamu.

Open WebUI: ChatGPT-like rozhranie

Open WebUI je najpopulárnejší frontend pre Ollama (vyše 90 000 hviezdičiek na GitHube). Spustenie cez Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Po spustení otvoríte http://localhost:3000 a získate plnohodnotné chat rozhranie podobné ChatGPT — s históriou, viacerými modelmi, nahrávaním dokumentov a RAG-om out of the box.

Ollama vs. cloud LLM: kedy ktoré

Faktor Ollama (lokálne) Cloud LLM (OpenAI, Anthropic)
Cena za inferenciu$0 (po nákupe HW)$0,15–$15 za milión tokenov
Súkromie dát100 % lokálneZávisí od poskytovateľa (logy, training)
Najsilnejší dostupný modelLlama 3.1 405B, Qwen3 235BGPT-5, Claude Opus 4.7
Latencia (8B model)20–100 ms na token50–200 ms (síeť + queue)
DostupnosťOffline, žiadny rate limitVyžaduje internet, rate limity
Setup čas5–30 minút2 minúty (API kľúč)
Hardvérové nárokyRAM/GPU podľa modeluŽiadne (cloud)

Praktické odporúčanie: kombinujte. Ollamu používajte na high-volume úlohy (sumarizácia logov, klasifikácia, embeddings, prototypovanie) a cloud LLM pre úlohy, kde potrebujete maximálnu kvalitu (komplexné reasoning, najnovšie znalosti, multimodálne vstupy s extrémnou presnosťou).

Najčastejšie problémy a ich riešenia

"GPU not detected" / model beží na CPU

Linux: skontrolujte, že máte nainštalované nvidia-driver a nvidia-container-toolkit (ak používate Docker). Príkaz nvidia-smi musí fungovať. Ak nie, Ollama spadne na CPU inferenciu, ktorá je 10–50× pomalšia.

Windows: aktualizujte na najnovší NVIDIA driver a reštartujte počítač. Pre AMD GPU je podpora obmedzená — odporúčame WSL2 + ROCm.

Out of memory (OOM)

Skúste menšiu kvantizáciu (napr. q3_K_M namiesto q4_K_M) alebo menší model. Príkaz ollama show <model> ukáže dostupné varianty. Tiež znížte num_ctx v Modelfile — kontextové okno môže zaberať nečakane veľa pamäte.

Pomalá inferencia (< 5 tokenov/s)

Najčastejšia príčina: model sa nezmestil do VRAM a časť beží na CPU/RAM (split inference). Skontrolujte ollama ps — ak je SIZE väčší ako vaša VRAM, model sa rozdelil. Buď zvoľte menší model, alebo použite agresívnejšiu kvantizáciu.

Port 11434 je obsadený

Iná inštancia už beží. Linux: sudo systemctl stop ollama. macOS: ukončite aplikáciu v menu lište. Alebo zmeňte port: OLLAMA_HOST=127.0.0.1:11500 ollama serve.

Záver: lokálne LLM ako súčasť modernej AI stack-u

Ollama nezastaranou cloudovú AI — robí ju komplementárnou. Pre vývojárov, dátových analytikov a firmy, ktoré pracujú s citlivými dátami, je to dnes štandardný nástroj. Začať môžete za 5 minút a s 16 GB RAM zvládnete reálne produktívne úlohy.

Ak vás zaujíma, ako AI vyhľadávače (vrátane tých postavených na týchto modeloch) hľadajú a citujú obsah, pozrite si náš návod na GEO optimalizáciu alebo článok Technical GEO: Robots.txt a AI boty.


Často kladené otázky (FAQ)

Je Ollama zadarmo?

Áno, Ollama je open-source (MIT licencia) a zadarmo na osobné aj komerčné použitie. Platíte len za hardvér a elektrinu. Niektoré modely v knižnici môžu mať vlastné licenčné podmienky (napríklad Llama 3.1 má Meta Community License) — pri komerčnom nasadení skontrolujte licenciu konkrétneho modelu.

Aký model je najlepší pre slovenčinu?

Pre slovenčinu fungujú najlepšie multilingválne modely strednej veľkosti: Qwen3 14B, Gemma 3 12B a Llama 3.1 8B. Qwen má z týchto najsilnejší reasoning, Gemma najprirodzenejší slovenský text. Pre náročnejšie úlohy odporúčame Qwen3 32B alebo Llama 3.1 70B, ak máte na to hardvér.

Funguje Ollama bez GPU?

Áno, beží aj na CPU — ale výrazne pomalšie. Na moderných CPU s dostatočnou RAM (16+ GB) získate pri 7B modeli rýchlosť okolo 5–15 tokenov za sekundu, čo je použiteľné pre dávkové úlohy, ale nie pre interaktívny chat. Apple Silicon Macy s unified memory dosahujú výrazne lepšie výsledky aj bez dedikovanej GPU.

Môžem nasadiť Ollamu produkčne?

Áno, ale s rozvahou. Pre interný nástroj do firmy je Ollama vhodná. Pre verejnú produkčnú službu s vyšším traffic-om zvážte vLLM alebo TGI (Text Generation Inference) od HuggingFace — sú optimalizované na concurrency a continuous batching, kde Ollama zaostáva. Ollama je ideálna pre 1–10 súbežných používateľov; nad to stratíte na priepustnosti.

Aký je rozdiel medzi Ollama a llama.cpp?

llama.cpp je C++ runtime knižnica, ktorá vykonáva samotnú inferenciu. Ollama je vyšší layer postavený na llama.cpp, ktorý pridáva: knižnicu modelov s ťahaním cez tagy (ako Docker images), HTTP API, OpenAI kompatibilitu, automatickú správu životnosti modelu v pamäti a CLI. Ak chcete maximálnu kontrolu, použite priamo llama.cpp; ak chcete pohodlie, Ollama.

Akú kvantizáciu zvoliť?

Default q4_K_M je dobrý kompromis pre väčšinu prípadov — strata kvality oproti FP16 je marginálna (~1–2 %), ale úspora pamäte je veľká (~75 %). Ak máte dostatok VRAM, skúste q5_K_M alebo q6_K pre lepšiu kvalitu. q8_0 je takmer FP16 kvalita za polovicu pamäte. Nižšie ako q3 zvyčajne neodporúčame — kvalita citeľne klesá.

Lokálne LLM neodhalia, či vás cituje ChatGPT alebo Perplexity

Na to potrebujete monitoring AI viditeľnosti. Vyskúšajte Optimalizáciu pre AI zadarmo — bez kreditnej karty.

Vyskúšať zadarmo →
I

Ing. Lukáš Szudár

Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre desiatky domén.

Zdieľať článok

Sledujte, ako AI vyhľadávače citujú váš web

Vyskúšajte Optimalizáciu pre AI zadarmo