robots.txt für KI-Bots richtig aufsetzen und prüfen

Q: Schadet es der klassischen SEO, KI-Bots zuzulassen?

Nein. KI-Bots und Googlebot sind separate User-Agents. Wer GPTBot oder PerplexityBot zulässt, beeinflusst das Google-Ranking nicht. Es gibt keinen nachgewiesenen Zusammenhang zwischen KI-Bot-Zugriff und klassischen SEO-Signalen.

Q: Kann ich Training sperren, aber trotzdem in ChatGPT-Antworten erscheinen?

Ja. OpenAI trennt Training (GPTBot) und Search (OAI-SearchBot) sauber. Wer nur GPTBot sperrt, schließt Training aus, bleibt aber für ChatGPT Search erreichbar. Das ist Szenario B. Dasselbe gilt für Anthropic: ClaudeBot sperren blockiert Training, während Claude die Live-Suche über Brave Search (Brave-Bot) betreibt.

Wie Sie robots.txt für KI-Bots richtig aufsetzen: User-Agents kennen, Status prüfen und das passende Konfigurationsszenario für Ihre Website umsetzen.

KI-Bots sind standardmäßig erlaubt. Wer in robots.txt nichts sperrt, wird gecrawlt. Dieser Artikel zeigt, wie Sie KI-Bots gezielt zulassen oder sperren: erst Status prüfen, dann die richtigen User-Agents kennen, dann das passende Szenario umsetzen. Die strategische Frage, welches Szenario zu Ihrer Situation passt, folgt danach.

Eigene robots.txt prüfen: Status quo

Bevor Sie etwas ändern, sollten Sie wissen, wo Sie aktuell stehen. Viele Websites sperren KI-Bots unbeabsichtigt, zum Beispiel durch veraltete Empfehlungen oder automatisch generierte Konfigurationen. Die Prüfung ist in wenigen Minuten erledigt.

Direktaufruf der robots.txt

Rufen Sie https://ihredomain.com/robots.txt im Browser auf. Suchen Sie nach den User-Agent-Einträgen GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot und Google-Extended. Fehlen sie vollständig, gilt das Standardverhalten: alle Bots sind erlaubt, sofern kein generisches Disallow: / greift.

Google Search Console robots.txt-Tester

Im Bereich „Einstellungen“ der Search Console gibt es einen eingebauten robots.txt-Tester. Dort können Sie einen beliebigen User-Agent eingeben und prüfen, ob er Zugriff auf Ihre URLs hätte. Nützlich, wenn Sie unsicher sind, ob eine Wildcard-Regel KI-Bots trifft.

Server-Logs auswerten

Filtern Sie Ihre Zugriffslogs nach den User-Agent-Strings GPTBot, ClaudeBot, PerplexityBot und OAI-SearchBot. Erscheinen diese Bots nicht in Ihren Logs, obwohl Ihre Website öffentlich erreichbar ist, deutet das auf eine aktive Sperrung hin.

Hosting-Panels prüfen

Viele Managed-Hosting-Anbieter (z.B. Kinsta, WP Engine, Cloudflare) generieren die robots.txt automatisch oder erlauben das Bearbeiten nur über die Oberfläche. Prüfen Sie dort, ob eine Sperrung eingebaut ist, die im Direktaufruf sichtbar wäre, aber nicht offensichtlich wirkt.

Wichtig: Kein spezieller Eintrag bedeutet „erlaubt“. KI-Bots brauchen keine explizite Allow: /-Zeile. Die Standardregel ist Zugriff, solange kein Disallow greift. Explizite Erlaubnis ist nur dann nötig, wenn vorher gesperrt wurde.

Training vs. Search: Warum das nicht dasselbe ist

KI-Bots haben zwei verschiedene Funktionen, die in robots.txt getrennt gesteuert werden können. Wer das nicht unterscheidet, trifft oft die falsche Entscheidung.

Training-Crawling bedeutet: Ein Bot besucht Ihre Website, um Inhalte in die Trainingsdaten eines Sprachmodells aufzunehmen. Das passiert einmalig oder in periodischen Abständen. Die Inhalte fließen in die Modellgewichte, nicht in Echtzeit-Antworten.

Search/Inference-Crawling bedeutet: Ein Bot besucht Ihre Website, um aktuelle Informationen für eine Nutzeranfrage bereitzustellen, vergleichbar mit dem Index-Crawling klassischer Suchmaschinen. Das Ergebnis: Ihre Seite erscheint in KI-Suchantworten wie ChatGPT Search, Perplexity oder Google AI Overviews.

OpenAI trennt das sauber: GPTBot ist der Training-Bot, OAI-SearchBot ist der Search-Bot. Wer nur GPTBot sperrt, sperrt Training. ChatGPT Search läuft über OAI-SearchBot und ist davon nicht betroffen. Bei Anthropic läuft die Live-Suche in Claude nicht über ClaudeBot, sondern über Brave Search mit User-Agent Brave-Bot. ClaudeBot zu sperren schützt vor Training, aber nicht vor Erwähnungen in Claude-Suchantworten.

Konsequenz für die Konfiguration: Training-Opt-out und Search-Opt-out sind zwei verschiedene robots.txt-Einträge. Szenario B weiter unten zeigt, wie das konkret aussieht.

Alle relevanten KI-Bots im Überblick

Die folgende Tabelle listet alle User-Agents, die für die KI-Sichtbarkeit relevant sind, und zeigt, welche Funktion sie jeweils erfüllen.

User-Agent	Betreiber	Funktion	Crawl-Typ
`GPTBot`	OpenAI	ChatGPT Training und Browse	Training + Search
`OAI-SearchBot`	OpenAI	ChatGPT Search (SearchGPT)	Search only
`ClaudeBot`	Anthropic	Claude Training und Wissensbasis	Training only
`Brave-Bot`	Brave / Anthropic	Claude Live-Suche via Brave Search	Search only
`PerplexityBot`	Perplexity	Perplexity Antworten und Indexierung	Training + Search
`Google-Extended`	Google	AI Overviews und Gemini Training	Training + AI
`Googlebot`	Google	Klassische Google-Suche	Search (kein KI-spezifischer Bot)
`Google-Agent`	Google	KI-Agenten auf Nutzerauftrag (Project Mariner, Gemini)	User-Triggered — ignoriert robots.txt
`CCBot`	Common Crawl	Häufig für LLM-Training genutzt (u.a. GPT-3/4 Basis)	Training only
`YouBot`	You.com	You.com KI-Suche	Search only
`Diffbot`	Diffbot	Strukturierte Datenextraktion, LLM-Zulieferer	Training only

Hinweis: User-Agent-Strings können sich ändern. Prüfen Sie die offizielle Dokumentation der jeweiligen Plattform, bevor Sie Einträge in der robots.txt setzen. Die Links dazu finden Sie am Ende dieses Artikels.

Sonderfall Google-Agent: Googles KI-Agenten (Project Mariner, Gemini) agieren auf Nutzerauftrag und respektieren robots.txt nicht. Eine Sperrung über robots.txt ist wirkungslos. Wer den Zugriff einschränken will, braucht serverseitige Authentifizierung. Details: Google-Agent.

Szenario A: Maximale KI-Sichtbarkeit

Die meisten Websites befinden sich bereits in diesem Szenario, ohne es bewusst konfiguriert zu haben. Wenn Ihre robots.txt keine Einträge für KI-Bots enthält und kein generisches Disallow: / gesetzt ist, haben alle Bots Zugriff. Eine explizite Konfiguration ist dann nicht nötig.

Explizites Zulassen ist sinnvoll, wenn Sie vorher gesperrt hatten oder sicherstellen wollen, dass auch zukünftige Hosting-Änderungen die Konfiguration nicht überschreiben. Die folgende Konfiguration erlaubt allen relevanten KI-Bots den Zugriff:

robots.txt Szenario A: Maximale KI-Sichtbarkeit

# KI-Bots explizit zulassen
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Brave-Bot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /
    

Szenario B: Training opt-out, Search zulassen

Diese Konfiguration sperrt Training-Bots, lässt aber Search-Bots durch. Sie erscheinen weiterhin in KI-Suchantworten von ChatGPT Search, Claude und Perplexity, aber Ihre Inhalte fließen nicht in das Training neuer Modellversionen.

robots.txt Szenario B: Training opt-out, Search aktiv

# Training sperren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Diffbot
Disallow: /

# Search/Inference zulassen
User-agent: OAI-SearchBot
Allow: /

User-agent: Brave-Bot
Allow: /

User-agent: YouBot
Allow: /
    

Ausnahme PerplexityBot: Perplexity nutzt denselben Bot für Training und Search. Wer PerplexityBot sperrt, fällt auch aus den Perplexity-Suchantworten heraus. Eine saubere Trennung ist hier nicht möglich. Wenn Perplexity-Sichtbarkeit wichtig ist, lassen Sie PerplexityBot zu, auch wenn das bedeutet, dass Inhalte potenziell in Trainingsdaten fließen.

Szenario C: Vollständige Sperrung

Diese Konfiguration sperrt alle KI-Bots. Sinnvoll für Verlage mit Lizenzinteressen, Websites mit Paywall-Modell oder Inhalten, die nicht für KI-Verwertung freigegeben sein sollen. Die Konsequenz: keine Sichtbarkeit in KI-Suchantworten.

robots.txt Szenario C: Vollständige Sperrung

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Brave-Bot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Diffbot
Disallow: /
    

Googlebot nicht sperren. Googlebot ist für die klassische Google-Suche zuständig und hat nichts mit KI-Sichtbarkeit zu tun. Wer Googlebot sperrt, verschwindet aus den organischen Suchergebnissen. Lassen Sie ihn in jedem Szenario zu, auch wenn Sie alle KI-Bots sperren wollen.

Wichtig: Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell oder einem Cache gelandet sind, bleiben davon unberührt. Eine Blockierung ist keine Löschung aus bestehenden Systemen.

Unsicher, welches Szenario passt?

Wir prüfen Ihre robots.txt und GEO-Grundlagen und zeigen, wo Handlungsbedarf besteht.

GEO-Check anfragen

Welches Szenario passt? Die strategische Entscheidung

Nachdem Sie die drei Szenarien kennen, ist die eigentliche Frage: Was wollen Sie erreichen? Die Antwort hängt vor allem davon ab, ob Ihre Inhalte exklusiv sind oder ob sie auch anderswo zu finden sind.

Für die meisten Websites ist Szenario A das richtige, weil es die KI-Sichtbarkeit maximal öffnet. Szenario B ist die differenzierteste Option: Training geblockt, Search weiterhin aktiv. Szenario C ist nur dann sinnvoll, wenn ein konkretes Lizenz- oder Geschäftsmodellinteresse dahintersteht. Für Websites mit nicht-exklusiven Inhalten ist vollständige Sperrung in der Regel ein Kampf gegen Windmühlen: die KI bezieht denselben Inhalt von anderen Quellen, die nicht sperren.

Zulassen

KI-Sichtbarkeit in ChatGPT Search, Perplexity, Google AI Overviews
Kein nachweisbarer SEO-Schaden durch Zulassung
Standardverhalten: wer nichts sperrt, wird gecrawlt
Für nicht-exklusive Inhalte: KI holt den Inhalt sonst woanders, Sperrung bringt keinen Schutz

Sperren

Sinnvoll bei exklusiven Inhalten mit Lizenz- oder Paywall-Interesse
Training-Opt-out: Inhalte fließen nicht in Modellgewichte
Für nicht-exklusive Inhalte: KI bezieht denselben Inhalt von Mitbewerbern
Keine KI-Sichtbarkeit in Suchantworten möglich
Wirkt nur auf zukünftiges Crawling, nicht auf bereits gecachte Inhalte

Für die meisten KMU-Websites empfehlen wir, mit Szenario A zu starten. Wer eine bewusste Entscheidung gegen KI-Training treffen will, ohne die Sichtbarkeit zu verlieren, ist mit Szenario B gut bedient. Szenario C ist die Ausnahme, nicht der Ausgangspunkt.

Was robots.txt nicht leistet: eine Steuerung dessen, wie KI-Systeme Ihre Inhalte inhaltlich aufbereiten oder präsentieren. Dafür gibt es andere Ansätze, zum Beispiel llms.txt, das KI-Systemen strukturierte Informationen über Ihre Website bereitstellt.

Häufige Fehler

Die meisten Konfigurationsfehler entstehen nicht durch bewusste Entscheidungen, sondern durch veraltete Empfehlungen, Hosting-Automatismen oder falsch verstandene Regeln. Die häufigsten davon:

Wildcard-Disallow sperrt alle Bots

User-agent: * mit Disallow: / sperrt jeden Bot, der keinen eigenen Eintrag hat. Das trifft auch KI-Search-Bots, die Sie möglicherweise zulassen wollten. Wenn Sie spezifische KI-Bots zulassen wollen, müssen diese als eigene Einträge vor oder nach dem Wildcard-Block stehen.

Veralteter CCBot-Block aus WordPress-Empfehlungen

Viele Empfehlungen aus 2022 und 2023 raten dazu, CCBot zu sperren. Das schützt zwar vor Common-Crawl-Daten, trifft aber nicht GPTBot oder OAI-SearchBot, die erst danach eingeführt wurden. Wer nur CCBot gesperrt hat und glaubt, damit KI-Training ausgeschlossen zu haben, irrt.

Falsche Reihenfolge: Wildcard schlägt spezifische Einträge

Wenn ein generisches User-agent: * mit Disallow vor einem spezifischen Allow steht, interpretieren manche Crawler die restriktivste Regel als gültig. Spezifische Einträge sollten immer klar getrennt und vollständig definiert sein.

Google-Extended mit Googlebot verwechselt

Google-Extended ist Googles KI-spezifischer Bot für AI Overviews und Gemini. Googlebot ist der klassische Suchbot. Wer versehentlich Googlebot sperrt, fällt aus der organischen Suche heraus. Beide separat behandeln.

Crawl-delay als Kompromiss

Crawl-delay bremst Bots, sperrt sie aber nicht. Es ist kein sinnvoller Mittelweg zwischen Zulassen und Sperren, sondern erhöht nur den Abstand zwischen den Zugriffen. Für eine klare Entscheidung brauchen Sie Allow oder Disallow.

Google-Agent in robots.txt sperren wollen

Google-Agent ist kein Crawler im klassischen Sinn, sondern ein User-Triggered Fetcher: Er besucht Ihre Website, weil ein Nutzer einen KI-Agenten (Project Mariner, Gemini) damit beauftragt hat. robots.txt-Regeln werden von Google-Agent nicht beachtet. Wer Zugriff einschränken will, braucht serverseitige Authentifizierung. Mehr dazu im Artikel Google-Agent.

robots.txt ist der erste Schritt.

Wer die technischen Voraussetzungen gesetzt hat, kann GEO-Maßnahmen mit nachweisbarer Wirkung angehen. Wir analysieren Ihre Ausgangssituation und zeigen, welche Maßnahmen für Ihre Website sinnvoll sind.

GEO-Beratung anfragen

Häufige Fragen

Schadet es der klassischen SEO, KI-Bots zuzulassen?

Nein. KI-Bots und Googlebot sind separate User-Agents. Wer GPTBot oder PerplexityBot zulässt, beeinflusst das Google-Ranking nicht. Es gibt keinen nachgewiesenen Zusammenhang zwischen KI-Bot-Zugriff und klassischen SEO-Signalen.

Kann ich Training sperren, aber trotzdem in ChatGPT-Antworten erscheinen?

Ja. OpenAI trennt Training (GPTBot) und Search (OAI-SearchBot) sauber. Wer nur GPTBot sperrt, schließt Training aus, bleibt aber für ChatGPT Search erreichbar. Das ist Szenario B. Dasselbe gilt für Anthropic: ClaudeBot sperren blockiert Training, während Claude die Live-Suche über Brave Search (Brave-Bot) betreibt.

Was passiert, wenn ich GPTBot sperre? Werde ich dann aus ChatGPT entfernt?

Die Sperrung wirkt nur auf zukünftiges Crawling. Inhalte, die bereits in einem Modell vorhanden sind, bleiben dort. Außerdem schützt die Sperrung von GPTBot nicht vor Erwähnungen aus anderen Quellen: Wenn andere Websites über Sie berichten, kann ChatGPT diesen Inhalt zitieren, unabhängig davon, ob Ihre eigene Website gesperrt ist.

Wie oft crawlen KI-Bots meine Website?

Das variiert stark nach Bot und Website. Training-Bots crawlen tendenziell seltener, da sie Snapshots für Modelltraining erstellen. Search-Bots wie OAI-SearchBot oder PerplexityBot crawlen häufiger, um aktuelle Informationen bereitzustellen, vergleichbar mit einem Suchmaschinen-Crawler. Logfile-Analysen zeigen, dass die absolute Häufigkeit für die meisten Websites gering ist.

Gilt robots.txt auch für llms.txt?

Nein. robots.txt und llms.txt sind zwei unabhängige Dateien mit verschiedenen Funktionen. robots.txt steuert, ob KI-Bots Ihre Website crawlen dürfen. llms.txt stellt strukturierte Informationen für KI-Systeme bereit, die bereits Zugriff haben. Die Einträge in robots.txt haben keinen Einfluss darauf, wie llms.txt gelesen oder ignoriert wird.

Was ist der Unterschied zwischen robots.txt und llms.txt?

robots.txt ist eine Zugangskontrolle: Sie sagt Bots, ob sie Ihre Website besuchen dürfen und welche Bereiche ausgenommen sind. llms.txt ist eine Inhaltsbeschreibung: Sie gibt KI-Systemen eine strukturierte Übersicht Ihrer Inhalte, damit diese effizienter verarbeitet werden können. Beides wirkt auf verschiedenen Ebenen und schließt sich nicht aus. Details zu llms.txt finden Sie im Artikel llms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?

Weiterführende Artikel

Agent-Optimierung · Technisch

Google-Agent

Was Google-Agent ist, warum er robots.txt ignoriert und wie Sie den Zugriff von KI-Agenten auf Nutzerauftrag steuern können.

GEO · Technisch

llms.txt: Sinnvolles GEO-Signal oder überflüssiger Hype?

Drei unabhängige Logfile-Analysen und Studienlage im Überblick: Was llms.txt wirklich leistet, wer die Datei tatsächlich liest und wann sie sich trotzdem lohnt.

GEO · Strategie

GEO-Maßnahmen: So werden Sie in KI-Antworten sichtbar

Welche Maßnahmen die KI-Sichtbarkeit nachweislich verbessern: von Answer-First-Content über Schema Markup bis zu Zitierfähigkeit und technischen Grundlagen.

robots.txt für KI-Bots richtig aufsetzen und prüfen

Eigene robots.txt prüfen: Status quo

Training vs. Search: Warum das nicht dasselbe ist

Alle relevanten KI-Bots im Überblick

Szenario A: Maximale KI-Sichtbarkeit

Szenario B: Training opt-out, Search zulassen

Szenario C: Vollständige Sperrung

Unsicher, welches Szenario passt?

Welches Szenario passt? Die strategische Entscheidung

Häufige Fehler

robots.txt ist der erste Schritt.

Häufige Fragen

Weiterführende Artikel

Bereit für besseres Online Marketing?