Wie unsicher ist KI – Studie der BBC und EBU
Die Studie zeigt, dass vieles nur Fiktion ist.
Hintergrund
Der Bericht „News Integrity in AI Assistants“ ist eine gemeinsame Studie der BBC und der European Broadcasting Union (EBU). 22 Public-Service-Medienorganisationen (PSM) aus 18 Ländern und in 14 Sprachen haben untersucht, wie vier weit verbreitete KI‑Assistenten – ChatGPT (OpenAI), Copilot (Microsoft), Gemini (Google) und Perplexity – auf Nachrichtenfragen reagieren.
Ausgangspunkt war eine erste BBC-Studie von Anfang 2025, die bereits schwerwiegende Fehler und Verzerrungen festgestellt hatte. Die neue, deutlich grössere Untersuchung soll klären, ob sich die Assistenten verbessert haben und ob die Probleme ein systemisches Muster über Länder und Sprachen hinweg darstellen.
Methodik
- Es wurden 30 „Kernfragen“ zu internationalen Nachrichtenthemen verwendet, die auf realen Nutzeranfragen basieren (z.B. zu Trump-Zöllen, Myanmar-Erdbeben, Ukraine, Klima, NATO, Papst, Weltmeisterschaft 2026 etc.).
- Alle 22 PSM‑Organisationen stellten diese Kernfragen an die vier Assistenten; viele ergänzten zusätzliche, lokale „Custom“-Fragen.
- Prompt-Präfix: „Nutze nach Möglichkeit Quellen von [PSM] …“, um zu analysieren, wie Assistenten mit Inhalten der beteiligten Sender umgehen.
- Es wurden ausschliesslich die kostenlosen, für Endnutzer typischen Versionen der Assistenten genutzt (Stand: Ende Mai / Anfang Juni 2025).
- Insgesamt wurden für die Kernfragen 2.709 Antworten von Journalistinnen und Journalisten bewertet (von 2.760 möglichen Antworten; einige fielen aus technischen oder organisatorischen Gründen weg). Zusätzlich wurden mehrere hundert Custom-Antworten qualitativ ausgewertet.
- Bewertet wurde entlang von fünf Kriterien: (1) Genauigkeit, (2) Quellenangaben, (3) Trennung von Meinung und Fakt, (4) Editorialisierung (wertende Zusätze), (5) Kontext/Vollständigkeit. Jede Antwort wurde pro Kriterium als „keine“, „einige“ oder „signifikante“ Probleme eingestuft.
Zentrale Ergebnisse (gesamt)
- 45 % aller Antworten wiesen mindestens ein signifikantes Problem auf.
- Zählt man Antworten mit „einigen“ Problemen hinzu, hatten 81 % der Antworten irgendeine Form von Problem.
- Nach Problemtyp (gesamt, jeweils Anteil mit signifikanten Problemen):
- Quellen/„Sourcing“: 31 % signifikante Probleme (insgesamt rund 50 % mit irgendeinem Quellenproblem).
- Genauigkeit (inkl. Zitate): ca. 20–21 % signifikante Probleme (insgesamt etwa 55 % mit Problemen).
- Kontext: 14 % signifikante Probleme (insgesamt etwa 45 % mit Problemen).
- Meinung vs. Fakt: ca. 6 % signifikante Probleme (insgesamt etwa 26 % mit Problemen).
- Editorialisierung (wertende Zusätze, die PSM zugeschrieben werden): etwa 6 % signifikante Probleme in den Antworten, die PSM‑Inhalte als Quelle nutzen.
- Ablehnungen („Refusals“): Nur 17 von 3.113 Antworten (Kern + Custom), also rund 0,5 %, wurden verweigert – deutlich weniger als in der ersten BBC‑Runde (3 %). Assistenten antworten also fast immer – auch dann, wenn sie keine zuverlässige Antwort geben können.
Unterschiede zwischen den Assistenten
Anteil aller Antworten mit signifikanten Problemen (Kernfragen):
- Gemini: 76 % (insgesamt ca. 96 % mit irgendeinem Problem).
- Copilot: ca. 38 % (insgesamt ca. 80 %).
- ChatGPT: ca. 38 % (insgesamt ca. 80 %).
- Perplexity: ca. 33 % (insgesamt ca. 73 %).
Quellenprobleme (signifikant):
- Gemini: 72 % der Antworten mit signifikanten Quellenproblemen – ein extremer Ausreisser.
- ChatGPT: 24 %.
- Copilot: 15 %.
- Perplexity: 15 %.
Genauigkeit (inkl. Zitate – signifikante Probleme, Kernfragen):
- Gesamt: 21 %.
- Copilot: 19 %.
- ChatGPT: 23 %.
- Perplexity: 19 %.
- Gemini: 20 %.
Direkte Zitate (Basis: 1.053 Antworten mit wörtlichen Zitaten):
- 12 % hatten signifikante Probleme bei der Korrektheit der Zitate.
- Gemini: 20 % der Antworten mit Zitaten hatten signifikante Probleme.
- Copilot: 4 % (am besten), ChatGPT und Perplexity jeweils rund 8 %.
Beispiele für Fehlerarten
- Veraltete oder falsche Fakten (z.B. falscher Amtsinhaber, veraltete Gesetzeslage, fehlerhafte Zahlen zu Toten beim Myanmar‑Erdbeben).
- Falsch oder verzerrt wiedergegebene Inhalte aus den Quellen (z.B. aus Regierungsmitteilungen, PSM‑Artikeln oder Studien werden verkürzte oder verfälschende Aussagen).
- „Halluzinierte“ oder veränderte Zitate, teils mit falscher Zuschreibung (z.B. Aussagen, die einem Politiker, einer Institution oder einem Sender zugeschrieben werden, obwohl sie so nie gefallen sind).
- Unzureichende oder irreführende Kontextgebung (z.B. wird eine Schätzung als gesicherter Wert dargestellt, oder wichtige Gegenpositionen und Einschränkungen werden weggelassen).
- Vermischung von Meinung und Fakt, insbesondere wenn politische Bewertungen oder Expertenmeinungen als Tatsachen formuliert werden.
Sourcing-Probleme im Detail
- Sourcing ist der grösste Problemblock: 31 % aller Antworten mit signifikanten Quellenproblemen.
- Typische Muster:
- Quellen werden zitiert, enthalten aber die behaupteten Fakten gar nicht („zeremonielle Zitationen“).
- Fiktive oder nicht auffindbare Links (auch auf PSM‑Domains), was den Eindruck erwecken kann, Sender hätten Inhalte gelöscht.
- Quellen hinter Paywall, die Faktenprüfung für Nutzer erschweren.
- Unpassende Quellen wie Satire, Unternehmens‑PR oder politische Propaganda, ohne Kennzeichnung als solche.
- Hohe Abhängigkeit von Wikipedia oder Plattformen wie Reddit, teils ohne Rückgriff auf originale PSM‑Quellen.
- Gemini zeigt besonders problematisches Verhalten:
- In 42 % der Gemini‑Antworten werden gar keine direkten Quellen‑URLs angegeben.
- In 54 % der Gemini‑Antworten finden sich Formulierungen wie „laut [Sender]“ oder „ausgehend von [Quelle]“, ohne dass ein passender Link beigefügt wird oder die Behauptung im genannten Medium tatsächlich nachweisbar wäre.
- Häufig wird suggeriert, PSM hätten bestimmte Bewertungen geäussert („BBC betont, dass …“), obwohl der Sender lediglich andere Akteure zitiert oder neutral berichtet.
Über-Konfidenz und Antwortstil
- Alle untersuchten Assistenten tendieren dazu, Fragen nahezu immer zu beantworten, statt Unsicherheit zu signalisieren.
- Der Tonfall ist meist souverän und „journalistisch“ klingend, oft gut strukturiert (insbesondere bei ChatGPT und Perplexity), mit Aufzählungen und Zwischenüberschriften – was beim Publikum leicht einen falschen Eindruck von Zuverlässigkeit erzeugt.
- Gleichzeitig fehlen wichtige Einschränkungen („wir wissen nicht…“, „es gibt widersprüchliche Angaben…“) und klare Hinweise auf Unsicherheit.
- Bei Perplexity kommt hinzu, dass sehr viele Quellen verlinkt werden – mehr, als im Text tatsächlich verwendet oder erklärt werden –, was Nutzer:innen eher überfordert, statt Transparenz zu schaffen.
- Copilot ist meist knapp und liefert vergleichsweise wenig Kontext; Gemini ist stilistisch und beim Sourcing stark inkonsistent.
Umgang mit PSM-Inhalten
- PSM‑Inhalte gelten als besonders vertrauenswürdig, werden aber durch die Assistenten häufig verzerrt.
- Von den Antworten, in denen PSM‑Inhalte explizit als Quellen genutzt oder genannt werden:
- 15 % enthalten signifikante Genauigkeitsprobleme (inkl. direkte Zitate), die PSM‑Berichterstattung verfälschen.
- 15 % enthalten problematische Zuschreibungen („laut [PSM]…“), die nicht durch konkrete, verlinkte Inhalte gedeckt sind.
- 6 % enthalten wertende Zusätze (Editorialisierung), die so im PSM‑Original nicht vorkommen, aber dem Sender zugeschrieben werden können.
- Dies birgt erhebliche Reputationsrisiken: Das Publikum hält sowohl die KI‑Anbieter als auch die Medienmarken für verantwortlich, wenn Informationen falsch wiedergegeben werden.
Unterschiede zwischen Sprachen und Märkten
- Der Bericht stellt fest, dass Antworten in Englisch deutlich häufiger direkte Quellenlinks enthalten als Antworten in anderen Sprachen. Das deutet auf einen systematischen Vorteil von Englisch in Trainingsdaten und Systemkonfiguration hin.
- Es gibt deutliche Unterschiede zwischen einzelnen Ländern/Sprachen bei der Häufigkeit signifikanter Probleme (Spanne ca. 26–67 %), doch die Studie war nicht darauf ausgelegt, diese Unterschiede kausal zu erklären. Mögliche Einflussfaktoren sind u.a.:
- Qualität und Sichtbarkeit der jeweiligen PSM‑Webseiten,
- Verfügbarkeit von Inhalten in der jeweiligen Sprache,
- unterschiedliche journalistische Bewertungskulturen in den beteiligten Redaktionen.
Entwicklung gegenüber der ersten BBC-Studie
Ein direkter Vergleich ist nur für die BBC‑Daten möglich. Dort zeigt sich:
- Anteil der Antworten mit signifikanten Problemen (alle Kriterien): Rückgang von 51 % auf 37 %.
- Genauigkeit (signifikante Probleme): Rückgang von 31 % auf 25 %; alle Assistenten liegen nun im Bereich 20–29 %.
- Sourcing: Deutliche Verbesserung bei Copilot, ChatGPT und Perplexity (auf etwa 10–15 % signifikante Probleme); Gemini bleibt mit ~47 % signifikanten Quellenproblemen auf hohem Niveau.
- Kontext: Anteil signifikanter Kontextprobleme bei der BBC sank von 22 % auf 13 %.
- Meinung/Fakt und Editorialisierung: starke Verbesserungen; signifikante Probleme bei Meinung/Fakt sanken von 12 % auf 3 %.
- Ablehnungen: von 13 (in der ersten Runde, überwiegend Gemini) auf 1 (Copilot) in der neuen Runde.
Fazit dieser Teilanalyse: Es gibt messbare Verbesserungen, aber das Niveau der Probleme – insbesondere bei Genauigkeit, Kontext und Sourcing – ist weiterhin so hoch, dass die Assistenten als Nachrichtenquelle nicht als verlässlich gelten können.
Schlussfolgerungen und Empfehlungen
- Systemische Probleme: Fehler sind kein Randphänomen, sondern über Assistenten, Sprachen und Themen hinweg verbreitet. Besonders gravierend sind verzerrte Quellenangaben und falsche Zuschreibungen zu vertrauenswürdigen PSM‑Marken.
- Nutzervertrauen vs. Qualitätsdefizit: Ein signifikanter Teil der Bevölkerung vertraut KI‑Assistenten bereits für Nachrichtenzusammenfassungen, obwohl deren Antworten objektiv häufig fehlerhaft sind. Das verstärkt die Risiken für Desinformation und für die Glaubwürdigkeit klassischer Medien.
- Anforderungen an KI-Entwickler:
- Priorisierung von Genauigkeit und sauberem Sourcing (inkl. funktionierender, aussagekräftiger Links).
- Transparente, regelmässige Offenlegung von Qualitätskennzahlen – aufgeschlüsselt nach Assistent, Land und Sprache.
- Besserer Umgang mit Unsicherheit: Assistenten sollten klarer kennzeichnen, wenn Informationen unsicher, umstritten oder unvollständig sind.
- Anforderungen an Medien und Politik:
- Medienhäuser brauchen mehr Kontrolle darüber, ob und wie ihre Inhalte in KI‑Assistenten genutzt werden.
- Es sollten klare Standards für Attribution, Zitierweise und Verlinkung etabliert werden.
- Regulierer sollten prüfen, wie Nachrichtennutzung in KI‑Systemen qualitätsgesichert und transparent gemacht werden kann.
- Anforderungen an das Publikum:
- Stärkung der „AI Literacy“: Nutzer:innen müssen die Grenzen von KI‑Assistenten verstehen, insbesondere in sensiblen Bereichen wie Nachrichten, Politik, Gesundheit und Recht.
Gesamtfazit
Trotz leichter Verbesserungen seit der ersten BBC‑Studie bleibt das zentrale Ergebnis bestehen: Aktuelle KI‑Assistenten sind kein zuverlässiger Weg, um Nachrichten zu beziehen. Die Fehlerquote ist hoch, die Art der Fehler – insbesondere bei Quellen, Kontext und der Darstellung von PSM‑Inhalten – ist potentiell schädlich für öffentliche Debatten und das Vertrauen in den Journalismus. KI‑Entwickler, Medienunternehmen, Regulierer und Nutzer:innen müssen gemeinsam daran arbeiten, Standards für Qualität, Transparenz und Verantwortlichkeit zu etablieren, bevor KI‑Assistenten als seriöse Nachrichtenquelle gelten können.
Das Dokument findet man hier, in englischer Sprache.