Späť na blog
Technical GEO22. apríla 202622 min

AI crawlers v 2026: kompletný audit GPTBot, ClaudeBot, PerplexityBot a ďalších

Čo robí GPTBot, ClaudeBot, Claude-SearchBot, PerplexityBot a 10 ďalších AI crawlerov. Presný návod, ktoré povoliť a ktoré blokovať v robots.txt — s praktickými príkladmi pre SaaS, e-shopy a médiá.

AI crawlers v 2026: Kompletný audit GPTBot, ClaudeBot, PerplexityBot a ďalších

Posledná aktualizácia: apríl 2026

TL;DR: V roku 2026 existuje viac ako 15 rôznych AI crawlerov, ktoré navštevujú váš web z rôznych dôvodov — niektoré tréningujú modely, iné slúžia na real-time vyhľadávanie. Anthropic vo februári 2026 rozdelil svoj crawler na tri samostatné boty (ClaudeBot, Claude-SearchBot, Claude-User), OpenAI má tiež tri (GPTBot, OAI-SearchBot, ChatGPT-User). Plošné blokovanie cez Disallow: / znamená, že vás ChatGPT ani Perplexity necitujú. Tento audit vám dá presnú maticu: čo povoliť, čo blokovať, a ako to overiť.

Prečo tradičný robots.txt v 2026 nestačí

Do roku 2023 stačilo v robots.txt riešiť dva scenáre: „povoliť Googlebot" alebo „blokovať konkrétny web scraper". V 2026 je situácia drasticky zložitejšia:

  • AI firmy oddelili tréningové crawlery od search/retrieval crawlerov — a od real-time user query crawlerov.
  • Ak blokujete „všetko AI", ChatGPT Search, Perplexity ani Google AIO vás nebudú citovať — prichádzate o rastúci segment návštevnosti.
  • Ak naopak povolíte všetko, vaše dáta budú v tréningovej sade budúcich modelov bez nároku na kompenzáciu.

Podľa analýzy Paula Calvana z Q3 2025 na vzorke top 1000 domén: ClaudeBotov podiel v Disallow pravidlách stúpa, zatiaľ čo PerplexityBot je častejšie v Allow než v Disallow — weby sa naučili rozlišovať medzi „tréning nechcem, citovanie áno".

Kompletný zoznam AI crawlerov k aprílu 2026

User-AgentPrevádzkovateľÚčelRešpektuje robots.txt?
GPTBotOpenAITréningÁno
OAI-SearchBotOpenAIIndexácia pre ChatGPT SearchÁno
ChatGPT-UserOpenAIReal-time fetch pri user queryÁno (čiastočne)
ClaudeBotAnthropicTréningÁno
Claude-SearchBotAnthropicIndexácia pre Claude search (od 2/2026)Áno
Claude-UserAnthropicReal-time fetch pri user queryÁno
PerplexityBotPerplexity AIIndexáciaÁno
Perplexity-UserPerplexity AIReal-time fetchÁno
Google-ExtendedGoogleTréning Gemini (oddelené od Googlebot!)Áno
GooglebotGoogleKlasické vyhľadávanie + AIOÁno
Applebot-ExtendedAppleTréning Apple IntelligenceÁno
ApplebotAppleSiri / Spotlight indexáciaÁno
CCBotCommon CrawlTréning (používa OpenAI, Meta, Google)Áno
Meta-ExternalAgentMetaTréning LlamaÁno
BytespiderByteDance (TikTok)Tréning Doubao / TikTok AIČasto nie
AmazonbotAmazonTréning Alexa / BedrockÁno
DiffbotDiffbotKnowledge Graph extrakciaÁno

OpenAI: tri boty s rôznou úlohou

OpenAI má verejne dokumentované tri samostatné crawlery:

GPTBot (tréningový)

Navštevuje web masívne a pravidelne. Obsah, ktorý nazbiera, môže byť použitý v tréningu ďalších OpenAI modelov (GPT-5, o4 atď.). Blokovanie znamená: váš obsah nebude v budúcich modeloch — ale neovplyvní to, či vás ChatGPT dnes cituje (to robí ChatGPT-User + OAI-SearchBot).

OAI-SearchBot (indexácia)

Od spustenia ChatGPT Search (koniec 2024) indexuje web podobne ako Googlebot — vytvára vyhľadávací index, ktorý ChatGPT používa pri generovaní odpovedí s citáciami. Toto je bot, ktorý nesmiete blokovať, ak chcete byť v ChatGPT Search viditeľní.

ChatGPT-User (real-time)

Keď používateľ položí ChatGPT otázku, ktorá vyžaduje aktuálne dáta, model pošle ChatGPT-User na konkrétne URL. Je to „browser on behalf of user", nie systematický crawler. Typicky len 1–5 requestov na session.

Anthropic: tri boty (rozdelené február 2026)

Anthropic vo februári 2026 oficiálne rozdelil svoj crawler:

ClaudeBot

Tréning modelov Claude. Blokovanie = váš obsah nie je v tréningu budúcich Claude modelov, ale nezabráni tomu, aby Claude vás citoval, keď používateľ položí otázku.

Claude-SearchBot

Novinka z 2/2026 — indexuje web pre Claude search. Anthropic oficiálne upozorňuje: „Disabling Claude-SearchBot prevents the system from indexing your content for search optimization, which may reduce your site's visibility."

Claude-User

Real-time fetch, keď používateľ Claude.ai požiada o zhrnutie konkrétnej stránky.

Podľa Anthropicu: blokovanie jedného bota neovplyvní ostatné dva — každý má vlastné user-agent string a vlastné pravidlá.

Perplexity: dva boty

Perplexity dokumentuje dva boty:

  • PerplexityBot — systematická indexácia, ktorú používa pri generovaní odpovedí.
  • Perplexity-User — real-time fetch, keď používateľ explicitne zadá URL alebo požiada o čítanie konkrétnej stránky.

Historicky Perplexity čelil obvineniam z ignorovania robots.txt (WIRED, jún 2024). Od verzie dokumentácie 2025 Perplexity tvrdí, že plne rešpektuje štandardy.

Google-Extended a Applebot-Extended (dvojičky)

Oba fungujú rovnako: blokovanie ovplyvní tréning AI modelu, ale nie klasické vyhľadávanie:

  • Google-Extended — blokovanie = vaše dáta nie sú v Gemini tréningu. Googlebot (normálny) však funguje a Google AIO vás stále môže citovať cez štandardné SERP pozície.
  • Applebot-Extended — blokovanie = vaše dáta nie sú v Apple Intelligence tréningu. Applebot (klasický) pre Siri/Spotlight funguje.

Stratégia: čo povoliť, čo blokovať

Univerzálne odporúčanie pre firmy, ktoré chcú byť viditeľné v AI vyhľadávačoch (teda väčšina našich čitateľov):

Bot typOdporúčaniePrečo
Search bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot)PovoliťBez nich vás AI vyhľadávače neuvidia
User bots (ChatGPT-User, Claude-User, Perplexity-User)PovoliťReal-time citácie pri user queries
Training bots (GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, CCBot, Meta-ExternalAgent)Podľa business modeluViď rozhodovacia matica nižšie
Googlebot, BingbotPovoliťKlasické SEO
Bytespider (ak nie je vaším target mark. TikTok Asia)Zvážiť blokovanieHistoricky agresívne crawlovanie

Rozhodovacia matica pre tréningové boty

  • Ste médium / editor s originálnym obsahom? → Blokujte tréningové boty. Uzatvorte licenčné dohody priamo (New York Times, Financial Times to robia).
  • Ste SaaS / produktová firma? → Povoľte tréning. Ak vaše docs končia v tréningu GPT-5, vývojári budú vedieť váš produkt lepšie používať.
  • Ste marketingový web malej-strednej firmy? → Povoľte všetko. Prínos viditeľnosti > riziko „použitého" obsahu.
  • Ste e-shop? → Povoľte search boty, tréningové zvážte (produktové popisy sú typicky generované tak či tak).

Praktické príklady robots.txt

Minimálne odporúčanie pre všetkých (povoliť search, zvážiť tréning)


Googlebot & Bingbot — klasické SEO

User-agent: Googlebot Allow: / User-agent: Bingbot Allow: /

Search/retrieval bots — dôležité pre AI viditeľnosť

User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: Claude-SearchBot Allow: / User-agent: Claude-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: /

Tréningové boty — blokované v tomto príklade

User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Applebot-Extended Disallow: /

Agresívny TikTok crawler

User-agent: Bytespider Disallow: /

Sitemap

Sitemap: https://vas-web.sk/sitemap.xml

Variant „maximálna AI viditeľnosť" (povoliť všetko)

User-agent: *
Allow: /

Sitemap: https://vas-web.sk/sitemap.xml

Variant „protect content" (médium / originálny obsah)


Povoliť len vyhľadávanie, blokovať všetok tréning

User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: Claude-SearchBot Allow: / User-agent: PerplexityBot Allow: /

Blokovať všetky tréningové boty

User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Amazonbot Disallow: / User-agent: Bytespider Disallow: / Sitemap: https://vas-web.sk/sitemap.xml

Ako overiť, že AI boty naozaj navštevujú váš web

Tri úrovne overenia:

1. Server logy (najpresnejšie)

Cez SSH do vášho servera:


Nginx access log

grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot" /var/log/nginx/access.log | tail -100

Apache

grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/apache2/access.log

2. Cloudflare analytics

Cloudflare v dashboarde Security → Bots → AI Bots zobrazuje graf návštev jednotlivých AI botov a umožňuje ich granulárne blokovanie/povolenie cez jedno tlačidlo (funkcia „Block AI Scrapers").

3. Verifikácia cez reverse DNS

Niektorí scraperi sa za AI boty vydávajú. Overíte to reverse DNS lookupom:


Príklad: IP z logu zobrazuje GPTBot v User-Agent

host 20.171.207.1

Ak výstup neobsahuje *.openai.com → je to fake crawler

OpenAI zoznam IP rangov: https://openai.com/gptbot.json

Anthropic: https://docs.anthropic.com/claude/docs/verify-claude-bot

Cloudflare „AI Audit" a alternatívy

Pre weby za Cloudflare existuje od 2024 jednoduché riešenie: AI Audit — zobrazí prehľad AI botov, ktoré zasiahli vašu doménu, a umožňuje bulk block/allow bez zásahu do robots.txt.

Alternatívy:

  • Dark Visitors — SaaS (cca $10/mes.) s auto-update robots.txt podľa nových botov.
  • Traefik / Nginx middleware — na server úrovni blokujete UA pattern s HTTP 403.
  • WordPress pluginy — napr. „Block AI Crawlers" z repozitára.

Časté chyby pri konfigurácii AI crawlerov

  1. Zabudnutý case-sensitivity: user-agent: gptbot vs User-agent: GPTBot — direktívy sú case-insensitive, ale odporúča sa používať oficiálny capitalization.
  2. Blokovanie Google-Extended bez Googlebot: funguje, ale ovplyvňuje len Gemini tréning — normálne Google SERP pozície neovplyvní.
  3. Jeden globálny User-agent: * s Disallow: blokuje aj vyhľadávače — pravdepodobne nechcete.
  4. Zabudnutý Sitemap: Sitemap: direktíva pomáha všetkým botom vrátane AI crawlerov.
  5. Robots.txt v subdir namiesto root: /robots.txt musí byť priamo v rootu domény, inak ho nikto nečíta.
  6. Meta tag noindex vs robots.txt: robots.txt blokuje crawlovanie, meta noindex blokuje indexáciu — sú to rôzne veci. Pre AI viditeľnosť dôležitejší je robots.txt.

Čo urobiť po správnej konfigurácii

Správne nastavený robots.txt je technický základ, nie kompletné riešenie. Ďalej:

Často kladené otázky

Blokovaním GPTBot prídem o citácie v ChatGPT?

Nie, nie priamo. GPTBot je len tréningový bot. Citácie v ChatGPT Search riadi OAI-SearchBot a ChatGPT-User. Ak povolíte tieto dva, vaše citácie ostanú aj pri zablokovanom GPTBot.

Ako dlho trvá, kým sa zmena v robots.txt prejaví?

AI boty typicky fetchnú robots.txt raz za 24 hodín. Zmena sa prejaví do jedného dňa. Veľké platformy (OpenAI, Anthropic) cachujú 24–48 hodín.

Ignoruje Bytespider robots.txt?

Historicky áno — odborná komunita zaznamenala prípady, kedy Bytespider navštevoval stránky explicitne blokované v robots.txt. Od 2025 sa situácia zlepšila, ale pre istotu odporúčame blokovať ho aj na server úrovni (403 cez Nginx/Cloudflare).

Ako skontrolujem, či je bot naozaj ten, za koho sa vydáva?

Reverse DNS lookup + oficiálne IP rangy. OpenAI publikuje zoznam IP rangov GPTBot, Anthropic a Perplexity tiež. Ak User-Agent tvrdí GPTBot, ale IP nepatrí do ich rangu, je to fake.

Čo je CCBot a prečo je dôležitý?

CCBot je crawler Common Crawl — open-source projektu, ktorého dáta používajú OpenAI, Meta, Google a ďalší ako základ tréningových sád. Blokovanie CCBot je efektívny spôsob, ako sa dostať von z budúcich tréningových sád väčšiny veľkých modelov naraz.

Môžem mať rôzne robots.txt pre rôzne subdomény?

Áno, každá subdoména má vlastný robots.txt. Typicky: marketingový web povolí všetko, docs subdoména povolí viac pre AI asistentov, admin/app subdoména blokuje všetko.

Začnite sledovať svoju AI viditeľnosť ešte dnes

Zistite, či vás ChatGPT, Perplexity a Google AI Overviews citujú — zadarmo, bez kreditnej karty.

Vyskúšať zadarmo →
O

Optimalizácia pre AI

Tím Optimalizácia pre AI pomáha firmám zvyšovať viditeľnosť v AI vyhľadávačoch. Monitorujeme Perplexity, ChatGPT, Google AIO, Gemini a Claude pre stovky domén.

Zdieľať článok

Sledujte, ako AI vyhľadávače citujú váš web

Vyskúšajte Optimalizáciu pre AI zadarmo