AI crawlers v 2026: kompletný audit GPTBot, ClaudeBot, PerplexityBot a ďalších
Čo robí GPTBot, ClaudeBot, Claude-SearchBot, PerplexityBot a 10 ďalších AI crawlerov. Presný návod, ktoré povoliť a ktoré blokovať v robots.txt — s praktickými príkladmi pre SaaS, e-shopy a médiá.

Posledná aktualizácia: apríl 2026
TL;DR: V roku 2026 existuje viac ako 15 rôznych AI crawlerov, ktoré navštevujú váš web z rôznych dôvodov — niektoré tréningujú modely, iné slúžia na real-time vyhľadávanie. Anthropic vo februári 2026 rozdelil svoj crawler na tri samostatné boty (ClaudeBot, Claude-SearchBot, Claude-User), OpenAI má tiež tri (GPTBot, OAI-SearchBot, ChatGPT-User). Plošné blokovanie cez
Disallow: /znamená, že vás ChatGPT ani Perplexity necitujú. Tento audit vám dá presnú maticu: čo povoliť, čo blokovať, a ako to overiť.
Prečo tradičný robots.txt v 2026 nestačí
Do roku 2023 stačilo v robots.txt riešiť dva scenáre: „povoliť Googlebot" alebo „blokovať konkrétny web scraper". V 2026 je situácia drasticky zložitejšia:
- AI firmy oddelili tréningové crawlery od search/retrieval crawlerov — a od real-time user query crawlerov.
- Ak blokujete „všetko AI", ChatGPT Search, Perplexity ani Google AIO vás nebudú citovať — prichádzate o rastúci segment návštevnosti.
- Ak naopak povolíte všetko, vaše dáta budú v tréningovej sade budúcich modelov bez nároku na kompenzáciu.
Podľa analýzy Paula Calvana z Q3 2025 na vzorke top 1000 domén: ClaudeBotov podiel v Disallow pravidlách stúpa, zatiaľ čo PerplexityBot je častejšie v Allow než v Disallow — weby sa naučili rozlišovať medzi „tréning nechcem, citovanie áno".
Kompletný zoznam AI crawlerov k aprílu 2026
| User-Agent | Prevádzkovateľ | Účel | Rešpektuje robots.txt? |
|---|---|---|---|
GPTBot | OpenAI | Tréning | Áno |
OAI-SearchBot | OpenAI | Indexácia pre ChatGPT Search | Áno |
ChatGPT-User | OpenAI | Real-time fetch pri user query | Áno (čiastočne) |
ClaudeBot | Anthropic | Tréning | Áno |
Claude-SearchBot | Anthropic | Indexácia pre Claude search (od 2/2026) | Áno |
Claude-User | Anthropic | Real-time fetch pri user query | Áno |
PerplexityBot | Perplexity AI | Indexácia | Áno |
Perplexity-User | Perplexity AI | Real-time fetch | Áno |
Google-Extended | Tréning Gemini (oddelené od Googlebot!) | Áno | |
Googlebot | Klasické vyhľadávanie + AIO | Áno | |
Applebot-Extended | Apple | Tréning Apple Intelligence | Áno |
Applebot | Apple | Siri / Spotlight indexácia | Áno |
CCBot | Common Crawl | Tréning (používa OpenAI, Meta, Google) | Áno |
Meta-ExternalAgent | Meta | Tréning Llama | Áno |
Bytespider | ByteDance (TikTok) | Tréning Doubao / TikTok AI | Často nie |
Amazonbot | Amazon | Tréning Alexa / Bedrock | Áno |
Diffbot | Diffbot | Knowledge Graph extrakcia | Áno |
OpenAI: tri boty s rôznou úlohou
OpenAI má verejne dokumentované tri samostatné crawlery:
GPTBot (tréningový)
Navštevuje web masívne a pravidelne. Obsah, ktorý nazbiera, môže byť použitý v tréningu ďalších OpenAI modelov (GPT-5, o4 atď.). Blokovanie znamená: váš obsah nebude v budúcich modeloch — ale neovplyvní to, či vás ChatGPT dnes cituje (to robí ChatGPT-User + OAI-SearchBot).
OAI-SearchBot (indexácia)
Od spustenia ChatGPT Search (koniec 2024) indexuje web podobne ako Googlebot — vytvára vyhľadávací index, ktorý ChatGPT používa pri generovaní odpovedí s citáciami. Toto je bot, ktorý nesmiete blokovať, ak chcete byť v ChatGPT Search viditeľní.
ChatGPT-User (real-time)
Keď používateľ položí ChatGPT otázku, ktorá vyžaduje aktuálne dáta, model pošle ChatGPT-User na konkrétne URL. Je to „browser on behalf of user", nie systematický crawler. Typicky len 1–5 requestov na session.
Anthropic: tri boty (rozdelené február 2026)
Anthropic vo februári 2026 oficiálne rozdelil svoj crawler:
ClaudeBot
Tréning modelov Claude. Blokovanie = váš obsah nie je v tréningu budúcich Claude modelov, ale nezabráni tomu, aby Claude vás citoval, keď používateľ položí otázku.
Claude-SearchBot
Novinka z 2/2026 — indexuje web pre Claude search. Anthropic oficiálne upozorňuje: „Disabling Claude-SearchBot prevents the system from indexing your content for search optimization, which may reduce your site's visibility."
Claude-User
Real-time fetch, keď používateľ Claude.ai požiada o zhrnutie konkrétnej stránky.
Podľa Anthropicu: blokovanie jedného bota neovplyvní ostatné dva — každý má vlastné user-agent string a vlastné pravidlá.
Perplexity: dva boty
Perplexity dokumentuje dva boty:
- PerplexityBot — systematická indexácia, ktorú používa pri generovaní odpovedí.
- Perplexity-User — real-time fetch, keď používateľ explicitne zadá URL alebo požiada o čítanie konkrétnej stránky.
Historicky Perplexity čelil obvineniam z ignorovania robots.txt (WIRED, jún 2024). Od verzie dokumentácie 2025 Perplexity tvrdí, že plne rešpektuje štandardy.
Google-Extended a Applebot-Extended (dvojičky)
Oba fungujú rovnako: blokovanie ovplyvní tréning AI modelu, ale nie klasické vyhľadávanie:
- Google-Extended — blokovanie = vaše dáta nie sú v Gemini tréningu. Googlebot (normálny) však funguje a Google AIO vás stále môže citovať cez štandardné SERP pozície.
- Applebot-Extended — blokovanie = vaše dáta nie sú v Apple Intelligence tréningu. Applebot (klasický) pre Siri/Spotlight funguje.
Stratégia: čo povoliť, čo blokovať
Univerzálne odporúčanie pre firmy, ktoré chcú byť viditeľné v AI vyhľadávačoch (teda väčšina našich čitateľov):
| Bot typ | Odporúčanie | Prečo |
|---|---|---|
| Search bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) | Povoliť | Bez nich vás AI vyhľadávače neuvidia |
| User bots (ChatGPT-User, Claude-User, Perplexity-User) | Povoliť | Real-time citácie pri user queries |
| Training bots (GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, CCBot, Meta-ExternalAgent) | Podľa business modelu | Viď rozhodovacia matica nižšie |
| Googlebot, Bingbot | Povoliť | Klasické SEO |
| Bytespider (ak nie je vaším target mark. TikTok Asia) | Zvážiť blokovanie | Historicky agresívne crawlovanie |
Rozhodovacia matica pre tréningové boty
- Ste médium / editor s originálnym obsahom? → Blokujte tréningové boty. Uzatvorte licenčné dohody priamo (New York Times, Financial Times to robia).
- Ste SaaS / produktová firma? → Povoľte tréning. Ak vaše docs končia v tréningu GPT-5, vývojári budú vedieť váš produkt lepšie používať.
- Ste marketingový web malej-strednej firmy? → Povoľte všetko. Prínos viditeľnosti > riziko „použitého" obsahu.
- Ste e-shop? → Povoľte search boty, tréningové zvážte (produktové popisy sú typicky generované tak či tak).
Praktické príklady robots.txt
Minimálne odporúčanie pre všetkých (povoliť search, zvážiť tréning)
Googlebot & Bingbot — klasické SEO
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Search/retrieval bots — dôležité pre AI viditeľnosť
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
Tréningové boty — blokované v tomto príklade
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
Agresívny TikTok crawler
User-agent: Bytespider
Disallow: /
Sitemap
Sitemap: https://vas-web.sk/sitemap.xml
Variant „maximálna AI viditeľnosť" (povoliť všetko)
User-agent: *
Allow: /
Sitemap: https://vas-web.sk/sitemap.xml
Variant „protect content" (médium / originálny obsah)
Povoliť len vyhľadávanie, blokovať všetok tréning
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Blokovať všetky tréningové boty
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Bytespider
Disallow: /
Sitemap: https://vas-web.sk/sitemap.xml
Ako overiť, že AI boty naozaj navštevujú váš web
Tri úrovne overenia:
1. Server logy (najpresnejšie)
Cez SSH do vášho servera:
Nginx access log
grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot" /var/log/nginx/access.log | tail -100
Apache
grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/apache2/access.log
2. Cloudflare analytics
Cloudflare v dashboarde Security → Bots → AI Bots zobrazuje graf návštev jednotlivých AI botov a umožňuje ich granulárne blokovanie/povolenie cez jedno tlačidlo (funkcia „Block AI Scrapers").
3. Verifikácia cez reverse DNS
Niektorí scraperi sa za AI boty vydávajú. Overíte to reverse DNS lookupom:
Príklad: IP z logu zobrazuje GPTBot v User-Agent
host 20.171.207.1
Ak výstup neobsahuje *.openai.com → je to fake crawler
OpenAI zoznam IP rangov: https://openai.com/gptbot.json
Anthropic: https://docs.anthropic.com/claude/docs/verify-claude-bot
Cloudflare „AI Audit" a alternatívy
Pre weby za Cloudflare existuje od 2024 jednoduché riešenie: AI Audit — zobrazí prehľad AI botov, ktoré zasiahli vašu doménu, a umožňuje bulk block/allow bez zásahu do robots.txt.
Alternatívy:
- Dark Visitors — SaaS (cca $10/mes.) s auto-update
robots.txtpodľa nových botov. - Traefik / Nginx middleware — na server úrovni blokujete UA pattern s HTTP 403.
- WordPress pluginy — napr. „Block AI Crawlers" z repozitára.
Časté chyby pri konfigurácii AI crawlerov
- Zabudnutý case-sensitivity:
user-agent: gptbotvsUser-agent: GPTBot— direktívy sú case-insensitive, ale odporúča sa používať oficiálny capitalization. - Blokovanie Google-Extended bez Googlebot: funguje, ale ovplyvňuje len Gemini tréning — normálne Google SERP pozície neovplyvní.
- Jeden globálny
User-agent: *s Disallow: blokuje aj vyhľadávače — pravdepodobne nechcete. - Zabudnutý Sitemap:
Sitemap:direktíva pomáha všetkým botom vrátane AI crawlerov. - Robots.txt v subdir namiesto root:
/robots.txtmusí byť priamo v rootu domény, inak ho nikto nečíta. - Meta tag noindex vs robots.txt:
robots.txtblokuje crawlovanie, metanoindexblokuje indexáciu — sú to rôzne veci. Pre AI viditeľnosť dôležitejší jerobots.txt.
Čo urobiť po správnej konfigurácii
Správne nastavený robots.txt je technický základ, nie kompletné riešenie. Ďalej:
- Pridajte llms.txt štandard pre AI-first weby.
- Nasadzte Schema.org markup pre lepšiu strojovú čitateľnosť.
- Začnite merať citácie cez AIO Tracker alebo podobný nástroj (prehľad metód merania).
- Optimalizujte obsah podľa GEO princípov.
Často kladené otázky
Blokovaním GPTBot prídem o citácie v ChatGPT?
Nie, nie priamo. GPTBot je len tréningový bot. Citácie v ChatGPT Search riadi OAI-SearchBot a ChatGPT-User. Ak povolíte tieto dva, vaše citácie ostanú aj pri zablokovanom GPTBot.
Ako dlho trvá, kým sa zmena v robots.txt prejaví?
AI boty typicky fetchnú robots.txt raz za 24 hodín. Zmena sa prejaví do jedného dňa. Veľké platformy (OpenAI, Anthropic) cachujú 24–48 hodín.
Ignoruje Bytespider robots.txt?
Historicky áno — odborná komunita zaznamenala prípady, kedy Bytespider navštevoval stránky explicitne blokované v robots.txt. Od 2025 sa situácia zlepšila, ale pre istotu odporúčame blokovať ho aj na server úrovni (403 cez Nginx/Cloudflare).
Ako skontrolujem, či je bot naozaj ten, za koho sa vydáva?
Reverse DNS lookup + oficiálne IP rangy. OpenAI publikuje zoznam IP rangov GPTBot, Anthropic a Perplexity tiež. Ak User-Agent tvrdí GPTBot, ale IP nepatrí do ich rangu, je to fake.
Čo je CCBot a prečo je dôležitý?
CCBot je crawler Common Crawl — open-source projektu, ktorého dáta používajú OpenAI, Meta, Google a ďalší ako základ tréningových sád. Blokovanie CCBot je efektívny spôsob, ako sa dostať von z budúcich tréningových sád väčšiny veľkých modelov naraz.
Môžem mať rôzne robots.txt pre rôzne subdomény?
Áno, každá subdoména má vlastný robots.txt. Typicky: marketingový web povolí všetko, docs subdoména povolí viac pre AI asistentov, admin/app subdoména blokuje všetko.
Začnite sledovať svoju AI viditeľnosť ešte dnes
Zistite, či vás ChatGPT, Perplexity a Google AI Overviews citujú — zadarmo, bez kreditnej karty.
Vyskúšať zadarmo →Odporúčame prečítať
Optimalizácia pre AI
Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre stovky domén.
Sledujte, ako AI vyhľadávače citujú váš web
Vyskúšajte Optimalizáciu pre AI zadarmo