KI-Bots sind standardmäßig erlaubt. Wer in robots.txt nichts sperrt, wird gecrawlt. Dieser Artikel zeigt, wie Sie KI-Bots gezielt zulassen oder sperren: erst Status prüfen, dann die richtigen User-Agents kennen, dann das passende Szenario umsetzen. Die strategische Frage, welches Szenario zu Ihrer Situation passt, folgt danach.
Eigene robots.txt prüfen: Status quo
Bevor Sie etwas ändern, sollten Sie wissen, wo Sie aktuell stehen. Viele Websites sperren KI-Bots unbeabsichtigt, zum Beispiel durch veraltete Empfehlungen oder automatisch generierte Konfigurationen. Die Prüfung ist in wenigen Minuten erledigt.
Rufen Sie https://ihredomain.com/robots.txt im Browser auf. Suchen Sie nach den User-Agent-Einträgen GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot und Google-Extended. Fehlen sie vollständig, gilt das Standardverhalten: alle Bots sind erlaubt, sofern kein generisches Disallow: / greift.
Im Bereich „Einstellungen“ der Search Console gibt es einen eingebauten robots.txt-Tester. Dort können Sie einen beliebigen User-Agent eingeben und prüfen, ob er Zugriff auf Ihre URLs hätte. Nützlich, wenn Sie unsicher sind, ob eine Wildcard-Regel KI-Bots trifft.
Filtern Sie Ihre Zugriffslogs nach den User-Agent-Strings GPTBot, ClaudeBot, PerplexityBot und OAI-SearchBot. Erscheinen diese Bots nicht in Ihren Logs, obwohl Ihre Website öffentlich erreichbar ist, deutet das auf eine aktive Sperrung hin.
Viele Managed-Hosting-Anbieter (z.B. Kinsta, WP Engine, Cloudflare) generieren die robots.txt automatisch oder erlauben das Bearbeiten nur über die Oberfläche. Prüfen Sie dort, ob eine Sperrung eingebaut ist, die im Direktaufruf sichtbar wäre, aber nicht offensichtlich wirkt.
Wichtig: Kein spezieller Eintrag bedeutet „erlaubt“. KI-Bots brauchen keine explizite Allow: /-Zeile. Die Standardregel ist Zugriff, solange kein Disallow greift. Explizite Erlaubnis ist nur dann nötig, wenn vorher gesperrt wurde.
Training vs. Search: Warum das nicht dasselbe ist
KI-Bots haben zwei verschiedene Funktionen, die in robots.txt getrennt gesteuert werden können. Wer das nicht unterscheidet, trifft oft die falsche Entscheidung.
Training-Crawling bedeutet: Ein Bot besucht Ihre Website, um Inhalte in die Trainingsdaten eines Sprachmodells aufzunehmen. Das passiert einmalig oder in periodischen Abständen. Die Inhalte fließen in die Modellgewichte, nicht in Echtzeit-Antworten.
Search/Inference-Crawling bedeutet: Ein Bot besucht Ihre Website, um aktuelle Informationen für eine Nutzeranfrage bereitzustellen, vergleichbar mit dem Index-Crawling klassischer Suchmaschinen. Das Ergebnis: Ihre Seite erscheint in KI-Suchantworten wie ChatGPT Search, Perplexity oder Google AI Overviews.
OpenAI trennt das sauber: GPTBot ist der Training-Bot, OAI-SearchBot ist der Search-Bot. Wer nur GPTBot sperrt, sperrt Training. ChatGPT Search läuft über OAI-SearchBot und ist davon nicht betroffen. Bei Anthropic läuft die Live-Suche in Claude nicht über ClaudeBot, sondern über Brave Search mit User-Agent Brave-Bot. ClaudeBot zu sperren schützt vor Training, aber nicht vor Erwähnungen in Claude-Suchantworten.
Konsequenz für die Konfiguration: Training-Opt-out und Search-Opt-out sind zwei verschiedene robots.txt-Einträge. Szenario B weiter unten zeigt, wie das konkret aussieht.
Alle relevanten KI-Bots im Überblick
Die folgende Tabelle listet alle User-Agents, die für die KI-Sichtbarkeit relevant sind, und zeigt, welche Funktion sie jeweils erfüllen.
| User-Agent | Betreiber | Funktion | Crawl-Typ |
|---|---|---|---|
GPTBot |
OpenAI | ChatGPT Training und Browse | Training + Search |
OAI-SearchBot |
OpenAI | ChatGPT Search (SearchGPT) | Search only |
ClaudeBot |
Anthropic | Claude Training und Wissensbasis | Training only |
Brave-Bot |
Brave / Anthropic | Claude Live-Suche via Brave Search | Search only |
PerplexityBot |
Perplexity | Perplexity Antworten und Indexierung | Training + Search |
Google-Extended |
AI Overviews und Gemini Training | Training + AI | |
Googlebot |
Klassische Google-Suche | Search (kein KI-spezifischer Bot) | |
Google-Agent |
KI-Agenten auf Nutzerauftrag (Project Mariner, Gemini) | User-Triggered — ignoriert robots.txt | |
CCBot |
Common Crawl | Häufig für LLM-Training genutzt (u.a. GPT-3/4 Basis) | Training only |
YouBot |
You.com | You.com KI-Suche | Search only |
Diffbot |
Diffbot | Strukturierte Datenextraktion, LLM-Zulieferer | Training only |
Hinweis: User-Agent-Strings können sich ändern. Prüfen Sie die offizielle Dokumentation der jeweiligen Plattform, bevor Sie Einträge in der robots.txt setzen. Die Links dazu finden Sie am Ende dieses Artikels.
Sonderfall Google-Agent: Googles KI-Agenten (Project Mariner, Gemini) agieren auf Nutzerauftrag und respektieren robots.txt nicht. Eine Sperrung über robots.txt ist wirkungslos. Wer den Zugriff einschränken will, braucht serverseitige Authentifizierung. Details: Google-Agent.
Szenario A: Maximale KI-Sichtbarkeit
Die meisten Websites befinden sich bereits in diesem Szenario, ohne es bewusst konfiguriert zu haben. Wenn Ihre robots.txt keine Einträge für KI-Bots enthält und kein generisches Disallow: / gesetzt ist, haben alle Bots Zugriff. Eine explizite Konfiguration ist dann nicht nötig.
Explizites Zulassen ist sinnvoll, wenn Sie vorher gesperrt hatten oder sicherstellen wollen, dass auch zukünftige Hosting-Änderungen die Konfiguration nicht überschreiben. Die folgende Konfiguration erlaubt allen relevanten KI-Bots den Zugriff:
# KI-Bots explizit zulassen
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Brave-Bot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Szenario B: Training opt-out, Search zulassen
Diese Konfiguration sperrt Training-Bots, lässt aber Search-Bots durch. Sie erscheinen weiterhin in KI-Suchantworten von ChatGPT Search, Claude und Perplexity, aber Ihre Inhalte fließen nicht in das Training neuer Modellversionen.
# Training sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Diffbot
Disallow: /
# Search/Inference zulassen
User-agent: OAI-SearchBot
Allow: /
User-agent: Brave-Bot
Allow: /
User-agent: YouBot
Allow: /
Ausnahme PerplexityBot: Perplexity nutzt denselben Bot für Training und Search. Wer PerplexityBot sperrt, fällt auch aus den Perplexity-Suchantworten heraus. Eine saubere Trennung ist hier nicht möglich. Wenn Perplexity-Sichtbarkeit wichtig ist, lassen Sie PerplexityBot zu, auch wenn das bedeutet, dass Inhalte potenziell in Trainingsdaten fließen.
Szenario C: Vollständige Sperrung
Diese Konfiguration sperrt alle KI-Bots. Sinnvoll für Verlage mit Lizenzinteressen, Websites mit Paywall-Modell oder Inhalten, die nicht für KI-Verwertung freigegeben sein sollen. Die Konsequenz: keine Sichtbarkeit in KI-Suchantworten.
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Brave-Bot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Diffbot
Disallow: /
Googlebot nicht sperren. Googlebot ist für die klassische Google-Suche zuständig und hat nichts mit KI-Sichtbarkeit zu tun. Wer Googlebot sperrt, verschwindet aus den organischen Suchergebnissen. Lassen Sie ihn in jedem Szenario zu, auch wenn Sie alle KI-Bots sperren wollen.
Wichtig: Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell oder einem Cache gelandet sind, bleiben davon unberührt. Eine Blockierung ist keine Löschung aus bestehenden Systemen.
Unsicher, welches Szenario passt?
Wir prüfen Ihre robots.txt und GEO-Grundlagen und zeigen, wo Handlungsbedarf besteht.
Welches Szenario passt? Die strategische Entscheidung
Nachdem Sie die drei Szenarien kennen, ist die eigentliche Frage: Was wollen Sie erreichen? Die Antwort hängt vor allem davon ab, ob Ihre Inhalte exklusiv sind oder ob sie auch anderswo zu finden sind.
Für die meisten Websites ist Szenario A das richtige, weil es die KI-Sichtbarkeit maximal öffnet. Szenario B ist die differenzierteste Option: Training geblockt, Search weiterhin aktiv. Szenario C ist nur dann sinnvoll, wenn ein konkretes Lizenz- oder Geschäftsmodellinteresse dahintersteht. Für Websites mit nicht-exklusiven Inhalten ist vollständige Sperrung in der Regel ein Kampf gegen Windmühlen: die KI bezieht denselben Inhalt von anderen Quellen, die nicht sperren.
Zulassen
- KI-Sichtbarkeit in ChatGPT Search, Perplexity, Google AI Overviews
- Kein nachweisbarer SEO-Schaden durch Zulassung
- Standardverhalten: wer nichts sperrt, wird gecrawlt
- Für nicht-exklusive Inhalte: KI holt den Inhalt sonst woanders, Sperrung bringt keinen Schutz
Sperren
- Sinnvoll bei exklusiven Inhalten mit Lizenz- oder Paywall-Interesse
- Training-Opt-out: Inhalte fließen nicht in Modellgewichte
- Für nicht-exklusive Inhalte: KI bezieht denselben Inhalt von Mitbewerbern
- Keine KI-Sichtbarkeit in Suchantworten möglich
- Wirkt nur auf zukünftiges Crawling, nicht auf bereits gecachte Inhalte
Für die meisten KMU-Websites empfehlen wir, mit Szenario A zu starten. Wer eine bewusste Entscheidung gegen KI-Training treffen will, ohne die Sichtbarkeit zu verlieren, ist mit Szenario B gut bedient. Szenario C ist die Ausnahme, nicht der Ausgangspunkt.
Was robots.txt nicht leistet: eine Steuerung dessen, wie KI-Systeme Ihre Inhalte inhaltlich aufbereiten oder präsentieren. Dafür gibt es andere Ansätze, zum Beispiel llms.txt, das KI-Systemen strukturierte Informationen über Ihre Website bereitstellt.
Häufige Fehler
Die meisten Konfigurationsfehler entstehen nicht durch bewusste Entscheidungen, sondern durch veraltete Empfehlungen, Hosting-Automatismen oder falsch verstandene Regeln. Die häufigsten davon:
User-agent: * mit Disallow: / sperrt jeden Bot, der keinen eigenen Eintrag hat. Das trifft auch KI-Search-Bots, die Sie möglicherweise zulassen wollten. Wenn Sie spezifische KI-Bots zulassen wollen, müssen diese als eigene Einträge vor oder nach dem Wildcard-Block stehen.
Viele Empfehlungen aus 2022 und 2023 raten dazu, CCBot zu sperren. Das schützt zwar vor Common-Crawl-Daten, trifft aber nicht GPTBot oder OAI-SearchBot, die erst danach eingeführt wurden. Wer nur CCBot gesperrt hat und glaubt, damit KI-Training ausgeschlossen zu haben, irrt.
Wenn ein generisches User-agent: * mit Disallow vor einem spezifischen Allow steht, interpretieren manche Crawler die restriktivste Regel als gültig. Spezifische Einträge sollten immer klar getrennt und vollständig definiert sein.
Google-Extended ist Googles KI-spezifischer Bot für AI Overviews und Gemini. Googlebot ist der klassische Suchbot. Wer versehentlich Googlebot sperrt, fällt aus der organischen Suche heraus. Beide separat behandeln.
Crawl-delay bremst Bots, sperrt sie aber nicht. Es ist kein sinnvoller Mittelweg zwischen Zulassen und Sperren, sondern erhöht nur den Abstand zwischen den Zugriffen. Für eine klare Entscheidung brauchen Sie Allow oder Disallow.
Google-Agent ist kein Crawler im klassischen Sinn, sondern ein User-Triggered Fetcher: Er besucht Ihre Website, weil ein Nutzer einen KI-Agenten (Project Mariner, Gemini) damit beauftragt hat. robots.txt-Regeln werden von Google-Agent nicht beachtet. Wer Zugriff einschränken will, braucht serverseitige Authentifizierung. Mehr dazu im Artikel Google-Agent.
robots.txt ist der erste Schritt.
Wer die technischen Voraussetzungen gesetzt hat, kann GEO-Maßnahmen mit nachweisbarer Wirkung angehen. Wir analysieren Ihre Ausgangssituation und zeigen, welche Maßnahmen für Ihre Website sinnvoll sind.
GEO-Beratung anfragenHäufige Fragen
Nein. KI-Bots und Googlebot sind separate User-Agents. Wer GPTBot oder PerplexityBot zulässt, beeinflusst das Google-Ranking nicht. Es gibt keinen nachgewiesenen Zusammenhang zwischen KI-Bot-Zugriff und klassischen SEO-Signalen.
Ja. OpenAI trennt Training (GPTBot) und Search (OAI-SearchBot) sauber. Wer nur GPTBot sperrt, schließt Training aus, bleibt aber für ChatGPT Search erreichbar. Das ist Szenario B. Dasselbe gilt für Anthropic: ClaudeBot sperren blockiert Training, während Claude die Live-Suche über Brave Search (Brave-Bot) betreibt.
Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell vorhanden sind, bleiben dort. Außerdem schützt die Sperrung von GPTBot nicht vor Erwähnungen aus anderen Quellen: Wenn andere Websites über Sie berichten, kann ChatGPT diesen Inhalt zitieren, unabhängig davon, ob Ihre eigene Website gesperrt ist.
Das variiert stark nach Bot und Website. Training-Bots crawlen tendenziell seltener, da sie Snapshots für Modelltraining erstellen. Search-Bots wie OAI-SearchBot oder PerplexityBot crawlen häufiger, um aktuelle Informationen bereitzustellen, vergleichbar mit einem Suchmaschinen-Crawler. Logfile-Analysen zeigen, dass die absolute Häufigkeit für die meisten Websites gering ist.
Nein. robots.txt und llms.txt sind zwei unabhängige Dateien mit verschiedenen Funktionen. robots.txt steuert, ob KI-Bots Ihre Website crawlen dürfen. llms.txt stellt strukturierte Informationen für KI-Systeme bereit, die bereits Zugriff haben. Die Einträge in robots.txt haben keinen Einfluss darauf, wie llms.txt gelesen oder ignoriert wird.
robots.txt ist eine Zugangskontrolle: Sie sagt Bots, ob sie Ihre Website besuchen dürfen und welche Bereiche ausgenommen sind. llms.txt ist eine Inhaltsbeschreibung: Sie gibt KI-Systemen eine strukturierte Übersicht Ihrer Inhalte, damit diese effizienter verarbeitet werden können. Beides wirkt auf verschiedenen Ebenen und schließt sich nicht aus. Details zu llms.txt finden Sie im Artikel llms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?
Weiterführende Artikel
Google-Agent
Was Google-Agent ist, warum er robots.txt ignoriert und wie Sie den Zugriff von KI-Agenten auf Nutzerauftrag steuern können.
Weiterlesenllms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?
Drei unabhängige Logfile-Analysen und Studienlage im Überblick: Was llms.txt wirklich leistet, wer die Datei tatsächlich liest und wann sie sich trotzdem lohnt.
WeiterlesenGEO-Maßnahmen: So werden Sie in KI-Antworten sichtbar
Welche Maßnahmen die KI-Sichtbarkeit nachweislich verbessern: von Answer-First-Content über Schema Markup bis zu Zitierfähigkeit und technischen Grundlagen.
Weiterlesen