AI crawlers audit 2026: GPTBot, ClaudeBot, PerplexityBot (kompletný návod)

Posledná aktualizácia: apríl 2026

TL;DR: V roku 2026 existuje viac ako 15 rôznych AI crawlerov, ktoré navštevujú váš web z rôznych dôvodov — niektoré tréningujú modely, iné slúžia na real-time vyhľadávanie. Anthropic vo februári 2026 rozdelil svoj crawler na tri samostatné boty (ClaudeBot, Claude-SearchBot, Claude-User), OpenAI má tiež tri (GPTBot, OAI-SearchBot, ChatGPT-User). Plošné blokovanie cez Disallow: / znamená, že vás ChatGPT ani Perplexity necitujú. Tento audit vám dá presnú maticu: čo povoliť, čo blokovať, a ako to overiť.

Prečo tradičný robots.txt v 2026 nestačí

Do roku 2023 stačilo v robots.txt riešiť dva scenáre: „povoliť Googlebot" alebo „blokovať konkrétny web scraper". V 2026 je situácia drasticky zložitejšia:

AI firmy oddelili tréningové crawlery od search/retrieval crawlerov — a od real-time user query crawlerov.
Ak blokujete „všetko AI", ChatGPT Search, Perplexity ani Google AIO vás nebudú citovať — prichádzate o rastúci segment návštevnosti.
Ak naopak povolíte všetko, vaše dáta budú v tréningovej sade budúcich modelov bez nároku na kompenzáciu.

Podľa analýzy Paula Calvana z Q3 2025 na vzorke top 1000 domén: ClaudeBotov podiel v Disallow pravidlách stúpa, zatiaľ čo PerplexityBot je častejšie v Allow než v Disallow — weby sa naučili rozlišovať medzi „tréning nechcem, citovanie áno".

Kompletný zoznam AI crawlerov k aprílu 2026

User-Agent	Prevádzkovateľ	Účel	Rešpektuje robots.txt?
`GPTBot`	OpenAI	Tréning	Áno
`OAI-SearchBot`	OpenAI	Indexácia pre ChatGPT Search	Áno
`ChatGPT-User`	OpenAI	Real-time fetch pri user query	Áno (čiastočne)
`ClaudeBot`	Anthropic	Tréning	Áno
`Claude-SearchBot`	Anthropic	Indexácia pre Claude search (od 2/2026)	Áno
`Claude-User`	Anthropic	Real-time fetch pri user query	Áno
`PerplexityBot`	Perplexity AI	Indexácia	Áno
`Perplexity-User`	Perplexity AI	Real-time fetch	Áno
`Google-Extended`	Google	Tréning Gemini (oddelené od Googlebot!)	Áno
`Googlebot`	Google	Klasické vyhľadávanie + AIO	Áno
`Applebot-Extended`	Apple	Tréning Apple Intelligence	Áno
`Applebot`	Apple	Siri / Spotlight indexácia	Áno
`CCBot`	Common Crawl	Tréning (používa OpenAI, Meta, Google)	Áno
`Meta-ExternalAgent`	Meta	Tréning Llama	Áno
`Bytespider`	ByteDance (TikTok)	Tréning Doubao / TikTok AI	Často nie
`Amazonbot`	Amazon	Tréning Alexa / Bedrock	Áno
`Diffbot`	Diffbot	Knowledge Graph extrakcia	Áno

OpenAI: tri boty s rôznou úlohou

OpenAI má verejne dokumentované tri samostatné crawlery:

GPTBot (tréningový)

Navštevuje web masívne a pravidelne. Obsah, ktorý nazbiera, môže byť použitý v tréningu ďalších OpenAI modelov (GPT-5, o4 atď.). Blokovanie znamená: váš obsah nebude v budúcich modeloch — ale neovplyvní to, či vás ChatGPT dnes cituje (to robí ChatGPT-User + OAI-SearchBot).

OAI-SearchBot (indexácia)

Od spustenia ChatGPT Search (koniec 2024) indexuje web podobne ako Googlebot — vytvára vyhľadávací index, ktorý ChatGPT používa pri generovaní odpovedí s citáciami. Toto je bot, ktorý nesmiete blokovať, ak chcete byť v ChatGPT Search viditeľní.

ChatGPT-User (real-time)

Keď používateľ položí ChatGPT otázku, ktorá vyžaduje aktuálne dáta, model pošle ChatGPT-User na konkrétne URL. Je to „browser on behalf of user", nie systematický crawler. Typicky len 1–5 requestov na session.

Anthropic: tri boty (rozdelené február 2026)

Anthropic vo februári 2026 oficiálne rozdelil svoj crawler:

ClaudeBot

Tréning modelov Claude. Blokovanie = váš obsah nie je v tréningu budúcich Claude modelov, ale nezabráni tomu, aby Claude vás citoval, keď používateľ položí otázku.

Claude-SearchBot

Novinka z 2/2026 — indexuje web pre Claude search. Anthropic oficiálne upozorňuje: „Disabling Claude-SearchBot prevents the system from indexing your content for search optimization, which may reduce your site's visibility."

Claude-User

Real-time fetch, keď používateľ Claude.ai požiada o zhrnutie konkrétnej stránky.

Podľa Anthropicu: blokovanie jedného bota neovplyvní ostatné dva — každý má vlastné user-agent string a vlastné pravidlá.

Perplexity: dva boty

Perplexity dokumentuje dva boty:

PerplexityBot — systematická indexácia, ktorú používa pri generovaní odpovedí.
Perplexity-User — real-time fetch, keď používateľ explicitne zadá URL alebo požiada o čítanie konkrétnej stránky.

Historicky Perplexity čelil obvineniam z ignorovania robots.txt (WIRED, jún 2024). Od verzie dokumentácie 2025 Perplexity tvrdí, že plne rešpektuje štandardy.

Google-Extended a Applebot-Extended (dvojičky)

Oba fungujú rovnako: blokovanie ovplyvní tréning AI modelu, ale nie klasické vyhľadávanie:

Google-Extended — blokovanie = vaše dáta nie sú v Gemini tréningu. Googlebot (normálny) však funguje a Google AIO vás stále môže citovať cez štandardné SERP pozície.
Applebot-Extended — blokovanie = vaše dáta nie sú v Apple Intelligence tréningu. Applebot (klasický) pre Siri/Spotlight funguje.

Stratégia: čo povoliť, čo blokovať

Univerzálne odporúčanie pre firmy, ktoré chcú byť viditeľné v AI vyhľadávačoch (teda väčšina našich čitateľov):

Bot typ	Odporúčanie	Prečo
Search bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot)	Povoliť	Bez nich vás AI vyhľadávače neuvidia
User bots (ChatGPT-User, Claude-User, Perplexity-User)	Povoliť	Real-time citácie pri user queries
Training bots (GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, CCBot, Meta-ExternalAgent)	Podľa business modelu	Viď rozhodovacia matica nižšie
Googlebot, Bingbot	Povoliť	Klasické SEO
Bytespider (ak nie je vaším target mark. TikTok Asia)	Zvážiť blokovanie	Historicky agresívne crawlovanie

Rozhodovacia matica pre tréningové boty

Ste médium / editor s originálnym obsahom? → Blokujte tréningové boty. Uzatvorte licenčné dohody priamo (New York Times, Financial Times to robia).
Ste SaaS / produktová firma? → Povoľte tréning. Ak vaše docs končia v tréningu GPT-5, vývojári budú vedieť váš produkt lepšie používať.
Ste marketingový web malej-strednej firmy? → Povoľte všetko. Prínos viditeľnosti > riziko „použitého" obsahu.
Ste e-shop? → Povoľte search boty, tréningové zvážte (produktové popisy sú typicky generované tak či tak).

Praktické príklady robots.txt

Minimálne odporúčanie pre všetkých (povoliť search, zvážiť tréning)


Googlebot & Bingbot — klasické SEO

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Search/retrieval bots — dôležité pre AI viditeľnosť

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

Tréningové boty — blokované v tomto príklade

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Agresívny TikTok crawler

User-agent: Bytespider
Disallow: /

Sitemap

Sitemap: https://vas-web.sk/sitemap.xml

Variant „maximálna AI viditeľnosť" (povoliť všetko)

User-agent: *
Allow: /

Sitemap: https://vas-web.sk/sitemap.xml

Variant „protect content" (médium / originálny obsah)


Povoliť len vyhľadávanie, blokovať všetok tréning

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Blokovať všetky tréningové boty

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

Sitemap: https://vas-web.sk/sitemap.xml

Ako overiť, že AI boty naozaj navštevujú váš web

Tri úrovne overenia:

1. Server logy (najpresnejšie)

Cez SSH do vášho servera:


Nginx access log

grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot" /var/log/nginx/access.log | tail -100

Apache

grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/apache2/access.log

2. Cloudflare analytics

Cloudflare v dashboarde Security → Bots → AI Bots zobrazuje graf návštev jednotlivých AI botov a umožňuje ich granulárne blokovanie/povolenie cez jedno tlačidlo (funkcia „Block AI Scrapers").

3. Verifikácia cez reverse DNS

Niektorí scraperi sa za AI boty vydávajú. Overíte to reverse DNS lookupom:


Príklad: IP z logu zobrazuje GPTBot v User-Agent

host 20.171.207.1
Ak výstup neobsahuje *.openai.com → je to fake crawler


OpenAI zoznam IP rangov: https://openai.com/gptbot.json

Anthropic: https://docs.anthropic.com/claude/docs/verify-claude-bot

Cloudflare „AI Audit" a alternatívy

Pre weby za Cloudflare existuje od 2024 jednoduché riešenie: AI Audit — zobrazí prehľad AI botov, ktoré zasiahli vašu doménu, a umožňuje bulk block/allow bez zásahu do robots.txt.

Alternatívy:

Dark Visitors — SaaS (cca $10/mes.) s auto-update robots.txt podľa nových botov.
Traefik / Nginx middleware — na server úrovni blokujete UA pattern s HTTP 403.
WordPress pluginy — napr. „Block AI Crawlers" z repozitára.

Časté chyby pri konfigurácii AI crawlerov

Zabudnutý case-sensitivity: user-agent: gptbot vs User-agent: GPTBot — direktívy sú case-insensitive, ale odporúča sa používať oficiálny capitalization.
Blokovanie Google-Extended bez Googlebot: funguje, ale ovplyvňuje len Gemini tréning — normálne Google SERP pozície neovplyvní.
Jeden globálny User-agent: * s Disallow: blokuje aj vyhľadávače — pravdepodobne nechcete.
Zabudnutý Sitemap: Sitemap: direktíva pomáha všetkým botom vrátane AI crawlerov.
Robots.txt v subdir namiesto root: /robots.txt musí byť priamo v rootu domény, inak ho nikto nečíta.
Meta tag noindex vs robots.txt: robots.txt blokuje crawlovanie, meta noindex blokuje indexáciu — sú to rôzne veci. Pre AI viditeľnosť dôležitejší je robots.txt.

Čo urobiť po správnej konfigurácii

Správne nastavený robots.txt je technický základ, nie kompletné riešenie. Ďalej:

Pridajte llms.txt štandard pre AI-first weby.
Nasadzte Schema.org markup pre lepšiu strojovú čitateľnosť.
Začnite merať citácie cez AIO Tracker alebo podobný nástroj (prehľad metód merania).
Optimalizujte obsah podľa GEO princípov.

Často kladené otázky

Blokovaním GPTBot prídem o citácie v ChatGPT?

Nie, nie priamo. GPTBot je len tréningový bot. Citácie v ChatGPT Search riadi OAI-SearchBot a ChatGPT-User. Ak povolíte tieto dva, vaše citácie ostanú aj pri zablokovanom GPTBot.

Ako dlho trvá, kým sa zmena v robots.txt prejaví?

AI boty typicky fetchnú robots.txt raz za 24 hodín. Zmena sa prejaví do jedného dňa. Veľké platformy (OpenAI, Anthropic) cachujú 24–48 hodín.

Ignoruje Bytespider robots.txt?

Historicky áno — odborná komunita zaznamenala prípady, kedy Bytespider navštevoval stránky explicitne blokované v robots.txt. Od 2025 sa situácia zlepšila, ale pre istotu odporúčame blokovať ho aj na server úrovni (403 cez Nginx/Cloudflare).

Ako skontrolujem, či je bot naozaj ten, za koho sa vydáva?

Reverse DNS lookup + oficiálne IP rangy. OpenAI publikuje zoznam IP rangov GPTBot, Anthropic a Perplexity tiež. Ak User-Agent tvrdí GPTBot, ale IP nepatrí do ich rangu, je to fake.

Čo je CCBot a prečo je dôležitý?

CCBot je crawler Common Crawl — open-source projektu, ktorého dáta používajú OpenAI, Meta, Google a ďalší ako základ tréningových sád. Blokovanie CCBot je efektívny spôsob, ako sa dostať von z budúcich tréningových sád väčšiny veľkých modelov naraz.

Môžem mať rôzne robots.txt pre rôzne subdomény?

Áno, každá subdoména má vlastný robots.txt. Typicky: marketingový web povolí všetko, docs subdoména povolí viac pre AI asistentov, admin/app subdoména blokuje všetko.

Začnite sledovať svoju AI viditeľnosť ešte dnes

Zistite, či vás ChatGPT, Perplexity a Google AI Overviews citujú — zadarmo, bez kreditnej karty.

Vyskúšať zadarmo →