Die wichtigsten Kennzahlen
KI-Sichtbarkeit lässt sich mit vier Kennzahlen abbilden.
Wie oft erscheint die Marke in KI-Antworten?
Die Erwähnungsrate (Mention Rate) misst den Anteil der Antworten, in denen eine Marke erscheint. Sie ist der direkteste Indikator für KI-Sichtbarkeit bei Kaufentscheidungen und Marktüberblicken.
Für wie viele relevante Themen ist die Marke sichtbar?
Die Themenabdeckung (Topic Coverage) misst, bei wie vielen Prompts des gesamten Prompt-Sets die Marke überhaupt präsent ist. Die Breitenmetrik der KI-Sichtbarkeit.
Wie oft wird die eigene Website als Quelle genannt?
Die Zitierrate (Citation Rate) misst, ob die eigene Domain in den Quellenangaben einer KI-Antwort erscheint. Relevant vor allem auf Perplexity, You.com und ChatGPT mit aktiviertem Web-Zugriff.
Wie bewertet eine KI die Marke: positiv, neutral oder negativ?
Das Sentiment misst die Tonalität der KI-Aussagen. Wird die Marke als empfehlenswert dargestellt, als problematisch, oder neutral als eine von mehreren Optionen? Das ist eine eigenständige Messung neben der Faktentreue: Ein KI-System kann korrekte Aussagen mit negativem Framing verbinden oder eine Marke zögernd empfehlen, ohne dabei faktisch falsch zu liegen.
Nicht jeder KPI ist bei jeder Prompt-Art sinnvoll. Die Erwähnungsrate etwa liefert keine aussagekräftigen Ergebnisse, wenn die eigene Marke bereits im Prompt genannt ist. Wie ein sinnvolles Prompt-Set aufgebaut wird, erklärt die Prompt-Bibliothek .
Erwähnungsrate und Themenabdeckung: zwei Dimensionen der Sichtbarkeit
Beide KPIs messen Sichtbarkeit, aber auf unterschiedlichen Ebenen. Die Erwähnungsrate ist eine Antwort-Metrik: Wie oft taucht die Marke bei einem bestimmten Prompt auf? Die Themenabdeckung ist eine Set-Metrik: Bei wie vielen verschiedenen Prompts im Prompt-Set erscheint die Marke überhaupt?
Ein Beispiel: Eine Marke erscheint beim Prompt „Beste CRM-Software für KMU“ in 8 von 10 Durchläufen (Erwähnungsrate 80 Prozent). Aber von 30 relevanten Prompts im Set erscheint sie nur bei 6 (Themenabdeckung 20 Prozent). Hohe Intensität bei wenigen Themen, fehlende Breite.
Für die Themenabdeckung wird ein Schwellenwert definiert: Ein Prompt gilt als abgedeckt, wenn die Marke in mindestens X Prozent der Durchläufe erscheint, typisch 10 bis 20 Prozent. Das filtert Zufallsnennungen heraus.
Erstnennung (First Mention Rate) und Depth of Inclusion
Innerhalb der Erwähnungsrate gibt es zwei Verfeinerungen, die für Wettbewerbsvergleiche relevant sind. Die Erstnennung (First Mention Rate) misst, wie oft die Marke als erste Empfehlung in einer Antwort erscheint, nicht als dritte oder vierte in einer Liste. Wer an erster Stelle steht, wird häufiger angeklickt und seltener durch eine Folgefrage verdrängt.
Die Depth of Inclusion ist eine qualitative Dimension: Wird die Marke nur beiläufig in einem Aufzählungspunkt erwähnt, oder taucht sie als aktives Beispiel auf, mit Begründung, mit Kontext? Eine Marke, die KI als konkreten Lösungsvorschlag für ein spezifisches Problem nennt, hat mehr Sichtbarkeitsgewicht als eine, die am Ende einer langen Liste steht.
Einige Monitoring-Tools berechnen ergänzend eine Average AI Position : an welcher Stelle einer Antwort die Marke durchschnittlich erscheint. Das klingt präziser als die binäre Erstnennung, hat aber eine strukturelle Einschränkung: Nicht jede KI-Antwort enthält eine geordnete Liste. Wer im Fließtext als einzige Empfehlung erscheint, hat keine Position im klassischen Sinne. Nützlich ist die Metrik innerhalb klar definierter Prompt-Kategorien, in denen die Antworten konsistent listenförmig sind.
Accuracy (Faktentreue)
Getrennt vom Sentiment steht die Accuracy (Faktentreue) als eigene Metrik. KI-Systeme erfinden gelegentlich Produktfunktionen, nennen falsche Preise, verwechseln ähnlich klingende Marken oder schreiben Eigenschaften zu, die nicht existieren. Das ist kein Meinungsproblem, sondern ein messbarer Faktenfehler.
Besonders betroffen sind Marken, die in den Trainingsdaten wenig vertreten sind oder sich seit dem letzten Modell-Training stark verändert haben. Falsche Preisangaben oder fehlerhafte DSGVO-Aussagen können Kaufentscheidungen direkt beeinflussen und müssen priorisiert behandelt werden. Die Reaktion ist inhaltlich: korrekte Informationen auf der eigenen Website und in Drittquellen platzieren, auf die KI-Systeme zurückgreifen.
Share of Voice im Wettbewerbsvergleich
Die Erwähnungsrate misst die eigene Sichtbarkeit isoliert. Der Share of Voice (SoV) setzt diese Zahl ins Verhältnis zum Wettbewerb: Welcher Anteil aller Markenerwähnungen im beobachteten Themenfeld entfällt auf die eigene Marke?
Beispiel: Werden bei 100 Prompt-Durchläufen zum Thema „CRM-Software für KMU“ insgesamt 180 Markenerwähnungen gezählt (mehrere Marken können in derselben Antwort erscheinen), und entfallen 54 davon auf Marke A, beträgt deren Share of Voice 30 Prozent.
SoV macht sichtbar, was die absolute Erwähnungsrate verbirgt: Eine Marke kann eine stabile Rate halten und trotzdem Boden verlieren, wenn ein Wettbewerber deutlich gewachsen ist. Deshalb gehört der Wettbewerbsvergleich zu jedem ernsthaften Monitoring-Setup.
Einschränkung: SoV ist nur aussagekräftig, wenn die beobachteten Wettbewerber konsistent definiert und über denselben Prompt-Set gemessen werden. Wer den Kreis willkürlich erweitert, verändert den SoV-Wert ohne inhaltliche Änderung.
- ErwähnungsrateMention Rate
- Anteil der Antworten, in denen eine Marke erscheint. Direktester Indikator für KI-Sichtbarkeit.
- ThemenabdeckungTopic Coverage
- Anteil der Prompts im Prompt-Set, für die die Marke mindestens gelegentlich erscheint, definiert über einen Schwellenwert. Misst die Breite der Sichtbarkeit über verschiedene Kaufintentionen.
- ZitierrateCitation Rate
- Anteil der Antworten, in denen die eigene Website-Domain als Quelle genannt wird. Relevant auf Perplexity, You.com und ChatGPT mit Web-Zugriff.
- Sentiment
- Tonalität der KI-Aussagen über eine Marke: positiv, neutral oder negativ. Eigenständige Metrik, getrennt von der Faktentreue.
- AccuracyFaktentreue
- Misst, ob KI-Systeme korrekte Fakten über eine Marke wiedergeben.
- ErstnennungFirst Mention Rate
- Anteil der Antworten, in denen die Marke als erste Empfehlung erscheint, nicht als dritte oder vierte in einer Liste.
- Average AI Position
- Durchschnittliche Position, an der eine Marke in listenförmigen KI-Antworten erscheint. Aussagekräftig nur bei Prompts mit konsistent geordneten Listen; bei Fließtext-Antworten strukturell eingeschränkt.
- Share of ModelSoM
- In manchen Monitoring-Tools verwendeter Begriff, meist synonym zur Erwähnungsrate: Anteil der Durchläufe, in denen eine Marke bei einem bestimmten Prompt erscheint.
- Share of VoiceSoV
- Relativer Anteil der eigenen Erwähnungen an allen Markenerwähnungen im beobachteten Themenfeld. Competitive-Metrik: zeigt die Wettbewerbsposition, nicht nur die absolute Sichtbarkeit.
Non-Determinismus: Warum KPIs schwanken
KI-Sichtbarkeit ist keine stabile Metrik wie ein Keyword-Ranking. Derselbe Prompt kann in zwei aufeinanderfolgenden Sessions zu unterschiedlichen Antworten führen. Das ist kein Fehler, sondern ein Grundprinzip: Large Language Models arbeiten stochastisch. Sie samplen bei jeder Antwort aus Wahrscheinlichkeitsverteilungen, was zu natürlicher Varianz führt. Dazu kommen stille Modell-Updates, die das Antwortverhalten ohne Ankündigung verändern können.
Genau deshalb basieren Erwähnungsrate und Themenabdeckung auf mehrfachen Durchläufen statt auf Einzelmessungen. Die Erwähnungsrate wird über eine definierte Anzahl von Wiederholungen berechnet: Erscheint die Marke in 7 von 10 Durchläufen, beträgt sie 70 Prozent. Die Themenabdeckung setzt einen Schwellenwert: Ein Prompt gilt als abgedeckt, wenn die Marke in mindestens X Prozent der Durchläufe erscheint. Beide KPIs mitteln die stochastische Varianz heraus, anstatt sie als Messfehler zu behandeln.
Zwei weitere Faktoren beeinflussen die Vergleichbarkeit von Tests. Erstens: Tests sollten in einer frischen, nicht-personalisierten Sitzung stattfinden. Wer im eigenen eingeloggten Account testet, beeinflusst die Ergebnisse durch Chatverlauf, aktivierte Plugins und gespeichertes Nutzergedächtnis. Inkognito-Modus oder ein frischer API-Zugriff liefern neutralere Messwerte.
Zweitens: KI-Antworten sind ortsabhängig. Die Frage „Welche Werbeagentur empfiehlst du für E-Commerce?” liefert in Wien, Berlin und Zürich unterschiedliche Ergebnisse. Wer Monitoring für mehrere Märkte betreibt, definiert den Zielort pro Test-Set und hält ihn konsistent, um Vergleichbarkeit sicherzustellen.
Sekundäre KPIs: Was GA4, GSC und Server-Logs zeigen
Die primären KPIs messen KI-Antworten direkt, per Prompt-Test. Die sekundären Signale kommen von außen: aus Analytics, der Search Console und Server-Logs. Sie brauchen keine Prompt-Tests und zeigen indirekte Auswirkungen der KI-Sichtbarkeit. Ersetzen können sie die aktive Messung nicht.
Nicht geeignete KPIs
Drei Metriken aus dem klassischen SEO lassen sich im AI Monitoring nicht anwenden, weil die dafür nötigen Daten nicht existieren.
Das KPI-Framework zusammenbauen
Grundlage des Frameworks ist eine strukturierte Prompt-Bibliothek. Welche Prompts getrackt werden, entscheidet, welche Kennzahlen überhaupt aussagekräftig sind. Wie eine Prompt-Bibliothek aufgebaut wird, erklärt der Artikel zur Prompt-Bibliothek .
Kern sind drei Fragestellungstypen. Für jeden Typ gelten andere KPIs. Nicht jede Kennzahl ist für jeden Prompt sinnvoll, und wer die Typen mischt, verfälscht das Reporting.
Das ergibt drei Messebenen, die KI-Sichtbarkeit strukturiert abdecken.
| Dimension | Frage | KPIs | Datenquelle |
|---|---|---|---|
| Sichtbarkeit | Wie oft erscheint die Marke? | Erwähnungsrate, Erstnennung, Themenabdeckung | Prompt-Tests |
| Relevanz | Wie prominent erscheint die Marke? | Depth of Inclusion, Zitierrate, Position in Antwort | Prompt-Tests |
| Qualität | Wie korrekt erscheint die Marke? | Sentiment, Accuracy | Prompt-Tests + manuelle Prüfung |
Nicht jeder KPI ist auf jeder Plattform messbar. Erwähnungsrate, Themenabdeckung und Sentiment lassen sich auf allen Plattformen erheben, weil sie nur die Antwort selbst auswerten. Die Zitierrate setzt voraus, dass die Plattform Quellenangaben liefert. Das ist bei Perplexity, You.com und ChatGPT mit aktiviertem Web-Zugriff der Fall. Bei reinen Sprachmodell-Abfragen ohne Retrieval, also ChatGPT ohne Browse, Claude oder Gemini ohne Web-Zugriff, gibt es keine Quellenangaben und damit keine Zitierrate.
Dazu kommen passive und indirekte Signale: KI-Referral-Sessions aus GA4, Branded-Search-Volumen aus der Google Search Console und Crawler-Frequenz aus Server-Logs. Diese Ebene erfordert kein regelmässiges Prompt-Testing, sondern einmalige Setup-Arbeit.
KPI-Framework für Ihr Unternehmen aufbauen
Wir helfen bei Prompt-Bibliothek, KPI-Definition und erstem Monitoring-Setup.
Reporting-Rhythmus und erste Benchmarks
KI-Monitoring braucht eine Pilotphase, bevor es Grundlage für Entscheidungen wird. Die drei Phasen im Überblick:
| Phase | Dauer | Frequenz | Ziel |
|---|---|---|---|
| Pilotphase | Monat 1–3 | Wöchentlich | Baseline aufbauen, kein Optimierungsschluss |
| Laufendes Monitoring | Ab Monat 4 | Monatlich | Trend beobachten, Auffälligkeiten erkennen |
| Aktive Optimierungsphase | Nach GEO-Massnahmen | Wöchentlich | Wirkung von Content-Anpassungen messen |
Benchmarks im Sinne von „gute Erwähnungsrate = 40 Prozent” gibt es nicht. Zu verschieden sind Branchen, Wettbewerbsintensität und die Breite des Prompt-Sets. Was zählt, ist der eigene Trend und der Vergleich mit definierten Wettbewerbern.
Wer GEO-Massnahmen umsetzt, ob neue Inhalte, verbesserte Strukturierung oder mehr Präsenz auf Bewertungsportalen, sollte vor Beginn eine saubere Baseline festhalten. Der GEO-Delta , also der Vorher/Nachher-Vergleich der Erwähnungsrate und Zitierrate, ist der einzige verlässliche Weg, um den Effekt einer Massnahme zu messen. Ohne Baseline ist eine spätere Verbesserung nicht nachweisbar.
Verdrängung durch Mitbewerber (Competitor Displacement) im Blick behalten. Wenn ein Wettbewerber plötzlich in Prompts erscheint, in denen er zuvor nicht war, oder die eigene Marke aus Antworten verschwindet, ist das kein langsamer Trend, sondern ein sprunghafter Wechsel. Mögliche Ursachen: Modell-Update, verbesserte Inhalte beim Wettbewerber, neue Drittquellen-Präsenz . Dieser Wechsel löst eine gezielte Analyse aus: welche Prompt-Kategorien sind betroffen, und was hat sich beim Wettbewerber verändert?
Quellen der Kategorie beobachten. Wer beim Zitierrate-Monitoring nicht nur die eigene Domain erfasst, sondern auch die Quellen, die KI-Systeme in der eigenen Kategorie insgesamt zitieren, gewinnt ein zweites Signal: Welche Fachmedien, Portale oder Drittseiten referenzieren KI-Systeme bevorzugt? Das zeigt, wo thematische Autorität aus KI-Perspektive liegt, und liefert direkte Hinweise für Content- und Kooperationsstrategie.
Wer kein Budget für ein dediziertes Monitoring-Tool hat, startet mit dem Minimalsetup: GA4 Custom Channel Group für KI-Quellen einrichten und einmal monatlich 15 bis 20 Prompts manuell testen. Das macht erste Trends sichtbar und zeigt, ob GEO-Massnahmen wirken. Wer mehr Prompts, mehr Wettbewerber oder historische Vergleiche braucht, kommt mit manuellem Testing nicht mehr skalierbar weiter. Professionelle Monitoring-Tools automatisieren das Prompt-Testing vollständig, und je größer das beobachtete Prompt-Set, desto belastbarer werden die Aussagen.
Wichtig: Vor dem Tool kommt das Verständnis. Wer ein Monitoring-Tool abonniert, ohne vorher zehn Prompts manuell getestet zu haben, versteht die Daten nicht einordnen. Manuelles Testen zuerst, dann Automatisierung.
Was tun, wenn ein KPI schwächelt?
Fällt ein KPI dauerhaft unter den Erwartungswert, sind das die ersten Ansatzpunkte für Ursachensuche und Gegenmassnahmen.
| KPI-Problem | Mögliche Ursache | Top Massnahmen |
|---|---|---|
| Erwähnungsrate niedrig | Eigene Inhalte werden nicht als starke KI-Quelle erkannt; kaum Präsenz in relevanten Drittquellen | GEO-Massnahmen auf inhaltlich relevanten Seiten; Drittquellen-Präsenz in der Kategorie ausbauen; Prompt-Set nach Themenlücken auswerten |
| Themenabdeckung niedrig | Inhaltliche Lücken: kein eigener Content für relevante Kaufintentionen vorhanden | Prompt-Set auswerten, welche Themen unter dem Schwellenwert bleiben; Inhalte für fehlende Themenfelder erstellen; nach Prompt-Kategorie aufschlüsseln |
| Zitierrate niedrig | Inhalte vorhanden, aber nicht im Format das RAG-Systeme bevorzugen; fehlende Präsenz auf zitierten Drittseiten | Zitierbarkeit verbessern (Answer-First, klare Struktur); Schema Markup für Kerninformationen ergänzen; Drittquellen analysieren und Präsenz dort aufbauen |
| Sentiment negativ | Kritische Drittquellen werden von KI-Systemen bevorzugt retrieviert | Set-C-Prompts analysieren, welche Quellen KI nutzt; positive Drittquellen aufbauen (Fachmedien, Bewertungsportale, Interviews); eigenes Framing auf der Website schärfen |
| Accuracy niedrig | Fehlinformationen in Retrieval-Quellen; Marke in Trainingsdaten wenig vertreten oder stark verändert | Korrekte Informationen prominent und strukturiert auf der Website platzieren; Wikidata-Eintrag prüfen und ergänzen; Drittquellen mit falschen Angaben identifizieren und korrigieren lassen |
Nicht immer ist die Ursache auf den ersten Blick erkennbar. Wer unsicher ist, wo anzusetzen, findet in einem unverbindlichen Erstgespräch eine erste Einschätzung.
AI-Monitoring-Setup einrichten lassen
Wir definieren die richtigen KPIs für Ihre Situation und bauen ein Monitoring-Setup, das belastbare Daten liefert.
- KPI-Definition und Prompt-Bibliothek für Ihre Branche
- GA4-Setup für sichtbaren KI-Traffic
- Baseline-Messung und Reporting-Framework
Häufige Fragen
Es gibt keinen allgemeingültigen Benchmark. Eine Erwähnungsrate von 30 Prozent kann in einem gesättigten Markt mit vielen starken Wettbewerbern stark sein, in einem Nischenmarkt mit wenig Konkurrenz hingegen schwach.
Was zählt, ist der eigene Trend im Zeitverlauf und der Vergleich mit denselben Wettbewerbern über dieselben Prompts. Wer nach zwei bis drei Monaten konsistenten Trackings eine sinkende Erwähnungsrate sieht, hat ein Signal. Eine einzelne Zahl ohne Kontext sagt wenig.
Das ist kein Fehler, sondern eine Eigenschaft von KI-Systemen. Large Language Models antworten nicht-deterministisch: Derselbe Prompt kann in zwei Durchläufen unterschiedliche Ergebnisse liefern. Dazu kommen stille Modell-Updates, die ohne Ankündigung das Antwortverhalten verändern.
Die Lösung ist Stichproben statt Einzelmessungen: denselben Prompt mehrfach ausführen, Mehrheitsergebnis werten, und Trends über mehrere Wochen beobachten statt einzelne Datenpunkte überzuinterpretieren.
Halluzinationen lassen sich nicht direkt in der KI-Plattform korrigieren. Was wirkt: korrekte und klar strukturierte Informationen auf der eigenen Website bereitstellen, auf die KI-Systeme beim nächsten Crawl zurückgreifen können. Zusätzlich helfen Einträge auf Bewertungsportalen wie G2 oder Trustpilot und klare Produktbeschreibungen auf Drittseiten, die KI-Systeme als Quellen nutzen.
Bei kritischen Fehlinformationen, zum Beispiel falschen Preisen oder unzutreffenden DSGVO-Aussagen, sollte das sofort dokumentiert und priorisiert behandelt werden.
Für den Einstieg reicht die Kombination aus GA4 und manuellen Tests. GA4 zeigt, ob und wie viel Traffic von KI-Plattformen kommt, sobald eine Custom Channel Group eingerichtet ist. Manuelle Tests mit 15 bis 20 Prompts monatlich liefern genug Signal, um Trends zu erkennen.
Ein bezahltes Tool lohnt sich, wenn das Prompt-Set auf 50 oder mehr Prompts wächst, mehrere Wettbewerber regelmässig verglichen werden oder historische Daten über längere Zeiträume gebraucht werden.
Ja, aber mit klarer Trennung. Erwähnungsrate, Themenabdeckung, Zitierrate und Sentiment folgen einer anderen Messlogik als SEO-Rankings und lassen sich nicht direkt vergleichen.
Sinnvoll ist ein eigener Abschnitt im Report, der KI-Sichtbarkeit als separate Dimension zeigt. Wer sie in denselben Bericht wie Keyword-Rankings packt, ohne den Unterschied zu erklären, erzeugt Verwirrung beim Management.
Wer im eingeloggten Account testet, beeinflusst die Ergebnisse. ChatGPT und andere KI-Systeme speichern Chatverläufe und nutzen Nutzergedächtnis, um Antworten anzupassen. Wer die eigene Marke häufig in Prompts nennt, wird sie häufiger in Antworten sehen.
Das ist kein repräsentatives Signal für das, was ein neuer, unbekannter Nutzer zu sehen bekommt. Tests für AI Monitoring gehören in eine frische, nicht-eingeloggte Sitzung.
Kein Fehler. KI-Systeme empfehlen Marken, ohne dass daraus ein Klick folgt. Eine Empfehlung in ChatGPT beeinflusst die Kaufentscheidung, bevor der Nutzer überhaupt sucht.
Die Wirkung zeigt sich indirekt: steigende Branded-Search-Anfragen in Google, häufigere Direkt-Sessions mit höherer Kaufabsicht. Wer Erwähnungsrate gegen Website-Traffic aufrechnet, misst zwei verschiedene Phasen der Customer Journey gegeneinander auf. Die Erwähnungsrate ist ein Sichtbarkeits-Indikator, kein Traffic-Indikator.
Ja. Eine Marke, die in 80 Prozent der Prompts erscheint, dabei aber falsche Preise, veraltete Produktbeschreibungen oder ein negatives Framing trägt, ist schlechter positioniert als eine mit 40 Prozent Erwähnungsrate und korrektem Sentiment. Hohe Sichtbarkeit mit falscher Darstellung kann aktiv schaden.
Deshalb gehören Sentiment und Accuracy (Faktentreue) immer in dasselbe Reporting wie die Erwähnungsrate. Eine Marke, die KI falsch beschreibt, ist sichtbar auf die falsche Art.
Direkt lässt sich ROI kaum messen. Es gibt keine Attribution, die eine KI-Erwähnung mit einem abgeschlossenen Kauf verbindet.
Was messbar ist: die Veränderung der Erwähnungsrate nach GEO-Massnahmen (GEO-Delta), steigender KI-Referral-Traffic in GA4, wachsende Branded-Search-Anfragen als indirekter Effekt.
Den echten ROI bestimmt, wer die Qualität von KI-Traffic (Conversion Rate, durchschnittlicher Auftragswert) langfristig mit organischem Traffic vergleicht. Das braucht 6 bis 12 Monate saubere Daten und eine klare Baseline.
Weiterführende Artikel
Prompt-Bibliothek: Welche Prompts für AI-Monitoring tracken
Wie man eine Prompt-Bibliothek für KI-Monitoring aufbaut: strukturiert nach Messzielen, priorisiert nach Business Impact, mit Beispielen und Variationsregeln
WeiterlesenGEO-Maßnahmen: So werden Sie in KI-Antworten sichtbar
Die wirksamsten GEO-Maßnahmen: Content-Struktur, Entity-Konsistenz, Drittseiten-Präsenz, Schema Markup und technische Voraussetzungen für KI-Sichtbarkeit
Weiterlesen