KI-Bots sind standardmäßig erlaubt. Wer in robots.txt nichts sperrt, wird gecrawlt. Dieser Artikel zeigt, wie Sie KI-Bots gezielt zulassen oder sperren: erst Status prüfen, dann die richtigen User-Agents kennen, dann das passende Szenario umsetzen. Die strategische Frage, welches Szenario zu Ihrer Situation passt, folgt danach.

Eigene robots.txt prüfen: Status quo

Bevor Sie etwas ändern, sollten Sie wissen, wo Sie aktuell stehen. Viele Websites sperren KI-Bots unbeabsichtigt, zum Beispiel durch veraltete Empfehlungen oder automatisch generierte Konfigurationen. Die Prüfung ist in wenigen Minuten erledigt.

1
Direktaufruf der robots.txt

Rufen Sie https://ihredomain.com/robots.txt im Browser auf. Suchen Sie nach den User-Agent-Einträgen GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot und Google-Extended. Fehlen sie vollständig, gilt das Standardverhalten: alle Bots sind erlaubt, sofern kein generisches Disallow: / greift.

2
Google Search Console robots.txt-Tester

Im Bereich „Einstellungen“ der Search Console gibt es einen eingebauten robots.txt-Tester. Dort können Sie einen beliebigen User-Agent eingeben und prüfen, ob er Zugriff auf Ihre URLs hätte. Nützlich, wenn Sie unsicher sind, ob eine Wildcard-Regel KI-Bots trifft.

3
Server-Logs auswerten

Filtern Sie Ihre Zugriffslogs nach den User-Agent-Strings GPTBot, ClaudeBot, PerplexityBot und OAI-SearchBot. Erscheinen diese Bots nicht in Ihren Logs, obwohl Ihre Website öffentlich erreichbar ist, deutet das auf eine aktive Sperrung hin.

4
Hosting-Panels prüfen

Viele Managed-Hosting-Anbieter (z.B. Kinsta, WP Engine, Cloudflare) generieren die robots.txt automatisch oder erlauben das Bearbeiten nur über die Oberfläche. Prüfen Sie dort, ob eine Sperrung eingebaut ist, die im Direktaufruf sichtbar wäre, aber nicht offensichtlich wirkt.

Wichtig: Kein spezieller Eintrag bedeutet „erlaubt“. KI-Bots brauchen keine explizite Allow: /-Zeile. Die Standardregel ist Zugriff, solange kein Disallow greift. Explizite Erlaubnis ist nur dann nötig, wenn vorher gesperrt wurde.

Alle relevanten KI-Bots im Überblick

Die folgende Tabelle listet alle User-Agents, die für die KI-Sichtbarkeit relevant sind, und zeigt, welche Funktion sie jeweils erfüllen.

User-Agent Betreiber Funktion Crawl-Typ
GPTBot OpenAI ChatGPT Training und Browse Training + Search
OAI-SearchBot OpenAI ChatGPT Search (SearchGPT) Search only
ClaudeBot Anthropic Claude Training und Wissensbasis Training only
Brave-Bot Brave / Anthropic Claude Live-Suche via Brave Search Search only
PerplexityBot Perplexity Perplexity Antworten und Indexierung Training + Search
Google-Extended Google AI Overviews und Gemini Training Training + AI
Googlebot Google Klassische Google-Suche Search (kein KI-spezifischer Bot)
Google-Agent Google KI-Agenten auf Nutzerauftrag (Project Mariner, Gemini) User-Triggered — ignoriert robots.txt
CCBot Common Crawl Häufig für LLM-Training genutzt (u.a. GPT-3/4 Basis) Training only
YouBot You.com You.com KI-Suche Search only
Diffbot Diffbot Strukturierte Datenextraktion, LLM-Zulieferer Training only

Hinweis: User-Agent-Strings können sich ändern. Prüfen Sie die offizielle Dokumentation der jeweiligen Plattform, bevor Sie Einträge in der robots.txt setzen. Die Links dazu finden Sie am Ende dieses Artikels.

Sonderfall Google-Agent: Googles KI-Agenten (Project Mariner, Gemini) agieren auf Nutzerauftrag und respektieren robots.txt nicht. Eine Sperrung über robots.txt ist wirkungslos. Wer den Zugriff einschränken will, braucht serverseitige Authentifizierung. Details: Google-Agent.

Szenario A: Maximale KI-Sichtbarkeit

Die meisten Websites befinden sich bereits in diesem Szenario, ohne es bewusst konfiguriert zu haben. Wenn Ihre robots.txt keine Einträge für KI-Bots enthält und kein generisches Disallow: / gesetzt ist, haben alle Bots Zugriff. Eine explizite Konfiguration ist dann nicht nötig.

Explizites Zulassen ist sinnvoll, wenn Sie vorher gesperrt hatten oder sicherstellen wollen, dass auch zukünftige Hosting-Änderungen die Konfiguration nicht überschreiben. Die folgende Konfiguration erlaubt allen relevanten KI-Bots den Zugriff:

robots.txt Szenario A: Maximale KI-Sichtbarkeit
# KI-Bots explizit zulassen User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Brave-Bot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: /

Szenario B: Training opt-out, Search zulassen

Diese Konfiguration sperrt Training-Bots, lässt aber Search-Bots durch. Sie erscheinen weiterhin in KI-Suchantworten von ChatGPT Search, Claude und Perplexity, aber Ihre Inhalte fließen nicht in das Training neuer Modellversionen.

robots.txt Szenario B: Training opt-out, Search aktiv
# Training sperren User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Diffbot Disallow: / # Search/Inference zulassen User-agent: OAI-SearchBot Allow: / User-agent: Brave-Bot Allow: / User-agent: YouBot Allow: /

Ausnahme PerplexityBot: Perplexity nutzt denselben Bot für Training und Search. Wer PerplexityBot sperrt, fällt auch aus den Perplexity-Suchantworten heraus. Eine saubere Trennung ist hier nicht möglich. Wenn Perplexity-Sichtbarkeit wichtig ist, lassen Sie PerplexityBot zu, auch wenn das bedeutet, dass Inhalte potenziell in Trainingsdaten fließen.

Szenario C: Vollständige Sperrung

Diese Konfiguration sperrt alle KI-Bots. Sinnvoll für Verlage mit Lizenzinteressen, Websites mit Paywall-Modell oder Inhalten, die nicht für KI-Verwertung freigegeben sein sollen. Die Konsequenz: keine Sichtbarkeit in KI-Suchantworten.

robots.txt Szenario C: Vollständige Sperrung
User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Brave-Bot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: YouBot Disallow: / User-agent: Diffbot Disallow: /

Googlebot nicht sperren. Googlebot ist für die klassische Google-Suche zuständig und hat nichts mit KI-Sichtbarkeit zu tun. Wer Googlebot sperrt, verschwindet aus den organischen Suchergebnissen. Lassen Sie ihn in jedem Szenario zu, auch wenn Sie alle KI-Bots sperren wollen.

Wichtig: Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell oder einem Cache gelandet sind, bleiben davon unberührt. Eine Blockierung ist keine Löschung aus bestehenden Systemen.

Unsicher, welches Szenario passt?

Wir prüfen Ihre robots.txt und GEO-Grundlagen und zeigen, wo Handlungsbedarf besteht.

GEO-Check anfragen

Welches Szenario passt? Die strategische Entscheidung

Nachdem Sie die drei Szenarien kennen, ist die eigentliche Frage: Was wollen Sie erreichen? Die Antwort hängt vor allem davon ab, ob Ihre Inhalte exklusiv sind oder ob sie auch anderswo zu finden sind.

Für die meisten Websites ist Szenario A das richtige, weil es die KI-Sichtbarkeit maximal öffnet. Szenario B ist die differenzierteste Option: Training geblockt, Search weiterhin aktiv. Szenario C ist nur dann sinnvoll, wenn ein konkretes Lizenz- oder Geschäftsmodellinteresse dahintersteht. Für Websites mit nicht-exklusiven Inhalten ist vollständige Sperrung in der Regel ein Kampf gegen Windmühlen: die KI bezieht denselben Inhalt von anderen Quellen, die nicht sperren.

Zulassen

  • KI-Sichtbarkeit in ChatGPT Search, Perplexity, Google AI Overviews
  • Kein nachweisbarer SEO-Schaden durch Zulassung
  • Standardverhalten: wer nichts sperrt, wird gecrawlt
  • Für nicht-exklusive Inhalte: KI holt den Inhalt sonst woanders, Sperrung bringt keinen Schutz

Sperren

  • Sinnvoll bei exklusiven Inhalten mit Lizenz- oder Paywall-Interesse
  • Training-Opt-out: Inhalte fließen nicht in Modellgewichte
  • Für nicht-exklusive Inhalte: KI bezieht denselben Inhalt von Mitbewerbern
  • Keine KI-Sichtbarkeit in Suchantworten möglich
  • Wirkt nur auf zukünftiges Crawling, nicht auf bereits gecachte Inhalte

Für die meisten KMU-Websites empfehlen wir, mit Szenario A zu starten. Wer eine bewusste Entscheidung gegen KI-Training treffen will, ohne die Sichtbarkeit zu verlieren, ist mit Szenario B gut bedient. Szenario C ist die Ausnahme, nicht der Ausgangspunkt.

Was robots.txt nicht leistet: eine Steuerung dessen, wie KI-Systeme Ihre Inhalte inhaltlich aufbereiten oder präsentieren. Dafür gibt es andere Ansätze, zum Beispiel llms.txt, das KI-Systemen strukturierte Informationen über Ihre Website bereitstellt.

Häufige Fehler

Die meisten Konfigurationsfehler entstehen nicht durch bewusste Entscheidungen, sondern durch veraltete Empfehlungen, Hosting-Automatismen oder falsch verstandene Regeln. Die häufigsten davon:

Wildcard-Disallow sperrt alle Bots

User-agent: * mit Disallow: / sperrt jeden Bot, der keinen eigenen Eintrag hat. Das trifft auch KI-Search-Bots, die Sie möglicherweise zulassen wollten. Wenn Sie spezifische KI-Bots zulassen wollen, müssen diese als eigene Einträge vor oder nach dem Wildcard-Block stehen.

Veralteter CCBot-Block aus WordPress-Empfehlungen

Viele Empfehlungen aus 2022 und 2023 raten dazu, CCBot zu sperren. Das schützt zwar vor Common-Crawl-Daten, trifft aber nicht GPTBot oder OAI-SearchBot, die erst danach eingeführt wurden. Wer nur CCBot gesperrt hat und glaubt, damit KI-Training ausgeschlossen zu haben, irrt.

Falsche Reihenfolge: Wildcard schlägt spezifische Einträge

Wenn ein generisches User-agent: * mit Disallow vor einem spezifischen Allow steht, interpretieren manche Crawler die restriktivste Regel als gültig. Spezifische Einträge sollten immer klar getrennt und vollständig definiert sein.

Google-Extended mit Googlebot verwechselt

Google-Extended ist Googles KI-spezifischer Bot für AI Overviews und Gemini. Googlebot ist der klassische Suchbot. Wer versehentlich Googlebot sperrt, fällt aus der organischen Suche heraus. Beide separat behandeln.

Crawl-delay als Kompromiss

Crawl-delay bremst Bots, sperrt sie aber nicht. Es ist kein sinnvoller Mittelweg zwischen Zulassen und Sperren, sondern erhöht nur den Abstand zwischen den Zugriffen. Für eine klare Entscheidung brauchen Sie Allow oder Disallow.

Google-Agent in robots.txt sperren wollen

Google-Agent ist kein Crawler im klassischen Sinn, sondern ein User-Triggered Fetcher: Er besucht Ihre Website, weil ein Nutzer einen KI-Agenten (Project Mariner, Gemini) damit beauftragt hat. robots.txt-Regeln werden von Google-Agent nicht beachtet. Wer Zugriff einschränken will, braucht serverseitige Authentifizierung. Mehr dazu im Artikel Google-Agent.

robots.txt ist der erste Schritt.

Wer die technischen Voraussetzungen gesetzt hat, kann GEO-Maßnahmen mit nachweisbarer Wirkung angehen. Wir analysieren Ihre Ausgangssituation und zeigen, welche Maßnahmen für Ihre Website sinnvoll sind.

GEO-Beratung anfragen

Häufige Fragen

Schadet es der klassischen SEO, KI-Bots zuzulassen?

Nein. KI-Bots und Googlebot sind separate User-Agents. Wer GPTBot oder PerplexityBot zulässt, beeinflusst das Google-Ranking nicht. Es gibt keinen nachgewiesenen Zusammenhang zwischen KI-Bot-Zugriff und klassischen SEO-Signalen.

Kann ich Training sperren, aber trotzdem in ChatGPT-Antworten erscheinen?

Ja. OpenAI trennt Training (GPTBot) und Search (OAI-SearchBot) sauber. Wer nur GPTBot sperrt, schließt Training aus, bleibt aber für ChatGPT Search erreichbar. Das ist Szenario B. Dasselbe gilt für Anthropic: ClaudeBot sperren blockiert Training, während Claude die Live-Suche über Brave Search (Brave-Bot) betreibt.

Was passiert, wenn ich GPTBot sperre? Werde ich dann aus ChatGPT entfernt?

Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell vorhanden sind, bleiben dort. Außerdem schützt die Sperrung von GPTBot nicht vor Erwähnungen aus anderen Quellen: Wenn andere Websites über Sie berichten, kann ChatGPT diesen Inhalt zitieren, unabhängig davon, ob Ihre eigene Website gesperrt ist.

Wie oft crawlen KI-Bots meine Website?

Das variiert stark nach Bot und Website. Training-Bots crawlen tendenziell seltener, da sie Snapshots für Modelltraining erstellen. Search-Bots wie OAI-SearchBot oder PerplexityBot crawlen häufiger, um aktuelle Informationen bereitzustellen, vergleichbar mit einem Suchmaschinen-Crawler. Logfile-Analysen zeigen, dass die absolute Häufigkeit für die meisten Websites gering ist.

Gilt robots.txt auch für llms.txt?

Nein. robots.txt und llms.txt sind zwei unabhängige Dateien mit verschiedenen Funktionen. robots.txt steuert, ob KI-Bots Ihre Website crawlen dürfen. llms.txt stellt strukturierte Informationen für KI-Systeme bereit, die bereits Zugriff haben. Die Einträge in robots.txt haben keinen Einfluss darauf, wie llms.txt gelesen oder ignoriert wird.

Was ist der Unterschied zwischen robots.txt und llms.txt?

robots.txt ist eine Zugangskontrolle: Sie sagt Bots, ob sie Ihre Website besuchen dürfen und welche Bereiche ausgenommen sind. llms.txt ist eine Inhaltsbeschreibung: Sie gibt KI-Systemen eine strukturierte Übersicht Ihrer Inhalte, damit diese effizienter verarbeitet werden können. Beides wirkt auf verschiedenen Ebenen und schließt sich nicht aus. Details zu llms.txt finden Sie im Artikel llms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?

Weiterführende Artikel

Agent-Optimierung · Technisch

Google-Agent

Was Google-Agent ist, warum er robots.txt ignoriert und wie Sie den Zugriff von KI-Agenten auf Nutzerauftrag steuern können.

Weiterlesen

GEO · Technisch

llms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?

Drei unabhängige Logfile-Analysen und Studienlage im Überblick: Was llms.txt wirklich leistet, wer die Datei tatsächlich liest und wann sie sich trotzdem lohnt.

Weiterlesen

GEO · Strategie

GEO-Maßnahmen: So werden Sie in KI-Antworten sichtbar

Welche Maßnahmen die KI-Sichtbarkeit nachweislich verbessern: von Answer-First-Content über Schema Markup bis zu Zitierfähigkeit und technischen Grundlagen.

Weiterlesen