ChatGPT bewertet Hypothesen nach Zufall
Washington State University: Bei stiegendem Komplexitätsgrad fallen Antworten zweideutig aus
![]() |
Interaktion: Bei komplizierten Fragen ist die KI oftmals ratlos (Bild: Mohamed Hassan, pixabay.com) |
Pulman (pte001/18.03.2026/06:00)
Mit der in den USA gebräuchlichen Note D, die dem deutschen "Ausreichend", also "gerade noch bestanden" entspricht, bewertet Mesut Cicek von der Washington State University ChatGPT. Die Künstliche Intelligenz (KI) sollte in einem groß angelegten Test Hypothesen aus wissenschaftlichen Artikeln prüfen und sagen, ob diese durch allgemein anerkannte Forschungsergebnisse gestützt werden. Jede Abfrage wiederholten sie zehnmal.
Nur wenig besser als der Zufall
Die KI antwortete zu 76,5 Prozent richtig, als das Experiment 2024 durchgeführt wurde. Als das Experiment 2025 wiederholt wurde, verbesserte sich die Genauigkeit auf 80 Prozent. Rein nach dem Zufallsprinzip hätte die Trefferquote bei 50 Prozent gelegen. Wenn das berücksichtigt wird, war die KI nur etwa 60 Prozent besser als der Zufall. Am meisten Schwierigkeiten bereitete es der KI, Hypothesen als falsch zu identifizieren. Hier waren die Antworten nur in 16,4 Prozent der Fälle korrekt.
Besonders negativ fiel Cicek auf, dass die Antworten inkonsistent waren. Bei zehn identischen Abfragen antwortete die KI in nur 73 Prozent der Fälle korrekt. "Wenn man ein und dieselbe Frage immer wieder stellt, erhält man unterschiedliche Antworten. Mal bejahte die KI die Frage, mal nicht. In mehreren Fällen hielten sich wahr und falsch die Waage", kritisiert der Wissenschaftler.
Vorsicht bei kritischen Aufgaben
Die Ergebnisse würden die Notwendigkeit unterstreichen, bei der Nutzung von KI für kritische Aufgaben Skepsis und Vorsicht walten zu lassen - insbesondere dann, wenn es um Nuancen oder komplizierte Schlussfolgerungen gehe. Die sprachliche Gewandtheit der generativen KI gehe noch nicht mit konzeptioneller Intelligenz einher.
Das deute darauf hin, dass die Annahme, KI könne wirklich "denken", noch längst nicht zutreffe. Aktuelle KI-Tools würden die Welt nicht so wie Menschen verstehen, denn sie hätten kein Gehirn. Cicek: "Sie verstehen nicht, wovon sie sprechen. Ich bin nicht gegen KI. Ich nutze sie. Aber man muss sehr vorsichtig sein", schließt der Wissenschaftler.
(Ende)| Aussender: | pressetext.redaktion |
| Ansprechpartner: | Wolfgang Kempkens |
| Tel.: | +43-1-81140-300 |
| E-Mail: | kempkens@pressetext.com |
| Website: | www.pressetext.com |


