Javascript ist in deinem Browser deaktiviert

Startbase benötigt Javascript, um Inhalte anzeigen zu können. Bitte überprüfe deine Browsereinstellungen und aktiviere die Javascript-Unterstützung für diese Website.

Berichterstattung über (generative) KI

KI lügt!!1 oder was will uns die Studie des europäischen Rundfunkrates sagen?

Eine neue EBU/BBC-Studie berichtet von einer 45%-igen Fehlerquote und signifikanten Problemen bei KI-generierten Antworten auf Alltagsfragen. Getestet wurden jedoch die kostenlosen Versionen der Assistenten, also ohne Pro-Modelle oder aktivierte Websuche. Genau das erklärt einen Teil der „veralteten Fakten“ und fehlenden Belege – wird aber in der medialen Berichterstattung nicht hinterfragt.

Meinungsartikel von

Jan Hendrik Reichenbacher · Berlin, 28. Oktober 2025

KI lügt!!1 oder was will uns die Studie des europäischen Rundfunkrates sagen?

Kernaussagen der European Broadcasting Union (EBU) Studie

45% der 3.000 getesteten Antworten enthielten mindestens einen signifikanten Fehler (bei „irgendeinem“ Problem sind es 81%). Größte Fehlerquelle ist "Sourcing": In 31% der Fälle passten Quellenangaben nicht, fehlten oder waren unprüfbar.
Gemini fiel bei den Quellen besonders auf (72% signifikante Sourcing-Probleme); die übrigen Assistenten lagen jeweils unter 25%.
Getestet wurden ChatGPT, Copilot, Gemini, Perplexity – in den kostenlosen Standard-Einstellungen und Ende Mai/Anfang Juni 2025 generiert. Das spiegele die "Standard Benutzererfahrung" (#sic) wieder, nicht den „Best-Case“ mit Pro-Modellen, RAG oder explizitem Browsing.

Die Begleit-Taxonomie ("Toolkit") geht tiefer auf den Versuchsaufbau sowie die identifizierten Fehler ein: von „Out-of-date information“ und „Out-of-date sources“ über fehlende Kontextangaben bis zu halluzinierten Links.

Große mediale Beachtung ohne kritisches Hinterfragen

Deutschsprachige Beiträge zu der Studie in Tagesschau, ZDF, Deutschlandfunk, SWR, (etc.) framen die Studie teils zugespitzt („45% falsch“, „KI lügt“) und es lässt sich geradezu ein gehässiger Unterton heraushören. Ein Hinterfragen des Versuchsaufbaus konnte ich bei meiner Recherche nicht finden - stattdessen klingen die Zitate der Medienschaffenden eher so, als ob man sich über den akademischen Rückwind bei den eigenen Interessen freut:

"Wir sehen unsere Linie von der Studie gestützt: Vertrauenswürdige Inhalte brauchen vertrauenswürdige KI-Systeme. Die ARD hat explizit Interesse daran, dass unsere Inhalte auch über KI für die Nutzenden zugänglich sind. Deshalb suchen wir aktiv das Gespräch mit den Plattformen, um zu guten Kooperationsmodellen zu kommen, die einen regulierten Zugang zu unseren Inhalten ermöglichen. Es braucht Mechanismen, die falsche und missverständliche Informationen verhindern."
Florian Hager, ARD Vorsitzender und hr-Intendant

Mehr Desinformation als Wissensgewinn?

Die Studie fokussiert bewusst auf die frei verfügbaren Versionen der KI-Assistenten, um die "häufigste Nutzung" abzubilden. Das mag methodisch legitim klingen und erklärt auch, warum so oft veraltete Fakten und schwache Quellen auftauchen:

Keine garantierte Echtzeit-Websuche in den kostenlosen Versionen, was das Risiko erhöht auf „Veraltete Informationen“ zu treffen.

Die EBU-Studie und nahezu alle darauf referenzierenden Medien ignorieren den Fakt, dass es eine ökonomische Entscheidung der KI-Anbieter ist, manche Funktionen nicht kostenlos anzubieten, weil sie signifikante Ressourcen und damit Kosten verursachen.
Meines Erachtens wird hier die Chance vertan, die Digitalkompetenz der Leser zu fördern. Die Nutzer von KI sollten wissen, dass KI-Modelle mit einem Informations-Snapshot trainiert werden. Dieses "Gehirn" hat somit eine Art Veröffentlichungsdatum, alles was danach passiert kann die KI also erstmal nicht wissen.
Diese technische Begebenheit war mit Aufkommen von ChatGPT (2022) der größte Kritikpunkt und daher arbeitete OpenAI, sowie auch andere Anbieter wie Anthropic und Google, daraufhin daran dieses Grundwissen des "Gehirns" mit aktuellem Wissen anzureichern. Dies funktioniert zum Beispiel über die Zusatzoption "Websuche", bei der die KI automatisiert aktuelle Suchergebnisse zu der Benutzer-Anfrage analysiert und dieses "frische" Wissen bei der Antwort-Generierung mitverwendet. Eine weitere Technik in diesem Kontext sind RAG-Systeme, bei denen der Benutzer das "Grundwissen" um ausgewählte Dokumente und Spezialwissen erweitern kann.
Überspitzt gesagt: Die Studienmacher könnten sich ebenso darüber beschweren, dass in der Spiegelausgabe vom 28.10.2024 keine aktuelle Neuigkeiten zum Jahr 2025 zu finden sind.

Fehlendes bzw. inkonsistentes Zitieren in den Antworten ("31% fehlende Quellenangaben").

Auch diese Kritik hängt mit dem zuvor dargelegten Gründen zusammen. Die Forderung, nach konsequentem und allzeit korrektem Zitieren von Quellen, ignoriert die technische Natur der (aktuellen) generativen KI Generation. Diese Kritik suggeriert, dass eine KI eigentlich genauso arbeiten müsste wie ein Mensch: "Mache eine Recherche und erstelle dann daraus einen Bericht mit Quellenangaben." .
Genau das tut die KI ja auch, wenn eben die Websuche-Funktion verwendet wird. Wenn die KI allerdings nur mit seinem "Grundwissen", also dem Wissen aus dem Training der KI welches zu einem Stichtag zusammengetragen wurde, antworten soll, dann kann die KI nicht wiedergeben, wo welches Wissen gelernt wurde. Ebenso wenig könnte es ein Mensch, oder weißt du noch, wann und wo du gelernt hast, dass der erste deutsche Bundeskanzler Konrad Adenauer hieß?! Bei Menschen besteht das Wissen als Verknüpfung unserer Gehirn-Synapsen, bei KIs bestehen sie aus Wort-Vektoren - das Wunder dieser Technik ist, dass trotz dieser physische Unterschied, sehr ähnliche Ergebnisse erzielt werden können.
Überspitzt gesagt: Sollte eine KI jede Aussage mit einer Quelle unterlegen können müssen? Sollte sie das jemals können, würden dann nicht menschliche Erzeugnisse gänzlich überflüssig werden, denn wir könnten unser "gelerntes Wissen" in Zukunft nicht mehr niederschreiben, ohne jedes Mal eine Quellenangabe für jeden noch so kleinen Fakt suchen zu müssen. Unterm Strich zeigt diese Kritik der EBU ein elementares philosophisches Problem unserer Gegenwart auf: Was ist die Wahrheit und wer bestimmt, was die Wahrheit ist?

Sprach-/Länderbias: Bei nicht-englischensprachigen Antworten gab es noch seltener Quellenangaben.

Hier spielen m.E. zwei technische Hintergründe rein:

UX-Entscheidung: Die KI spricht alle Sprachen der Welt, sein Wissen wird somit aus allen Sprachen gespeist. Wenn der Benutzer nun aber französisch spricht, kann die KI dann guten Gewissens spanisch-sprachige oder deutsch-sprachige Quellenangaben machen? Oder würde der Mensch sich dann veräppelt fühlen, weil er ja diese Quellen gar nicht lesen kann. Es könnte also eine Design / UX Entscheidung der KI-Betreiber sein, dass man nur Quellen in der Benutzersprache einblendet.
Wenn Websuche-verwendet wurde: Bei den verwendeten (kostenlosen) Tools, gibt es ja durchaus die Möglichkeit, dass eine Websuche ausgeführt wird - es ist aber halt nicht garantiert. Diese Websuche basiert auf einem Suchbegriff, den die KI dann für den Benutzer in eine Suchmaschine wie Google oder Bing eingibt, um dann die Suchergebnisse zu lesen und für den Benutzer auszuwerten. Und hier kommt ein externer Bias rein: Denn Google-Abfragen erfordern ja die Eingabe des Keywords in einer bestimmten Sprache. Wenn die KI nun entscheidet, einen englischen Suchbegriff zu verwenden, wird Google primär englische Quellen nennen. Dazu kommen weitere Details, die die Suchergebnisse verändern können (Standort-Angabe etc.).

„AI lügt“ oder "Digitalkompetenz ist wichtig" - was ist die wahre Erkenntnis der EBU Studie?

Ich hörte von der Studie im „Apokalypse & Filterkaffee“-Podcast und war irritiert, wie schnell die Narrative „KI lügt in 45% der Fälle“ weiterverbreitet wurde. Solche Zuspitzungen bedienen Vorurteile statt Digitalkompetenz, und genau das bremst uns in Europa immer wieder aus.

Statt hämisch über vermeintliche Unzulänglichkeiten einer Technologie zu berichten, würde ich mir wünschen, dass Digitalkompetenz mehr mediale Beachtung erfährt. Dann würden Markus Feldenkirchen und Yasmine M'Barek, die ich ansonsten sehr schätze, selber merken, dass hier über Anwenderfehler gesprochen wird und nicht über eine "systemische Unfähigkeit einer Technologie".