ChatGPT und Co übertreiben bei Fachtexten
Wissenschaftliche Untersuchung von 4.900 generierten Beiträgen zeigt zu weit gefasste Ergebnisse
![]() |
KI-Zusammenfassungen: Diese sind mit Vorsicht zu genießen (Bild: Katamaheen, pixabay.com) |
Utrecht/Cambridge/London (pte002/15.05.2025/06:05)
Zusammenfassungen wissenschaftlicher Arbeiten durch KI-Sprachmodelle wie ChatGPT legen die Ergebnisse äußerst großzügig aus. Ihre Schlussfolgerungen gehen über den tatsächlichen Inhalt der Studien hinaus. In 73 Prozent aller Fälle haben das Uwe Peters von der Universität Utrecht sowie Benjamin Chin-Yee von der University of Cambridge und der Western University nachgewiesen.
Wunsch nach Genauigkeit
Die Forscher haben ChatGPT und DeepSeek getestet und Tausende von Chatbot-generierten Wissenschaftszusammenfassungen analysiert. Ergebnis: Die meisten Modelle liefern durchweg weiter gefasste Schlussfolgerungen als jene, die aus den Texten hervorgehen. Überraschenderweise verschärften Aufforderungen zur Genauigkeit das Problem, und neuere KI-Modelle schnitten schlechter ab als ältere. Bewertet worden ist, wie genau zehn führende Modelle Artikel aus renommierten Wissenschafts- und Medizinzeitschriften wie "Nature", "Science" und "Lancet" zusammenfassen.
Insgesamt wurden 4.900 von den Tools erstellte Texte ausgewertet. Mehr oder weniger übertrieben sie Aussagen aus den Originaltexten, oft auf subtile, aber wirkungsvolle Weise, indem sie beispielsweise vorsichtige Aussagen in der Vergangenheitsform wie "Die Behandlung war in dieser Studie wirksam" in eine pauschalere Aussage in der Gegenwartsform wie "Die Behandlung ist wirksam" umformulierten. Diese Änderungen könnten Leser zur irrigen Annahme verleiten, dass die Ergebnisse viel allgemeiner gültig sind, als dies tatsächlich der Fall ist, so die Warnung.
Chatbots verallgemeinern
Peters und Chin-Yee haben in der Folge auch von Chatbots und Menschen generierte Zusammenfassungen derselben Artikel miteinander verglichen. Chatbots neigten fast fünfmal häufiger zu weitreichenden Verallgemeinerungen als ihre menschlichen Kollegen. "Frühere Studien haben gezeigt, dass Überverallgemeinerungen in wissenschaftlichen Texten oft vorkommen. So ist es nicht überraschend, dass Modelle, die mit diesen Texten trainiert wurden, dieses Muster reproduzieren", so Chin-Yee. "Da Menschen KI-Antworten bevorzugen, die hilfreich und allgemein anwendbar klingen, könnten die Modelle durch Interaktionen lernen, flüssiges Schreiben und Verallgemeinerungen gegenüber Präzision zu bevorzugen", denkt Peters.
(Ende)Aussender: | pressetext.redaktion |
Ansprechpartner: | Wolfgang Kempkens |
Tel.: | +43-1-81140-300 |
E-Mail: | kempkens@pressetext.com |
Website: | www.pressetext.com |