pte20250515002 in Forschung

ChatGPT und Co übertreiben bei Fachtexten

Wissenschaftliche Untersuchung von 4.900 generierten Beiträgen zeigt zu weit gefasste Ergebnisse

KI-Zusammenfassungen: Diese sind mit Vorsicht zu genießen (Bild: Katamaheen, pixabay.com)

Utrecht/Cambridge/London (pte002/15.05.2025/06:05)

Zusammenfassungen wissenschaftlicher Arbeiten durch KI-Sprachmodelle wie ChatGPT legen die Ergebnisse äußerst großzügig aus. Ihre Schlussfolgerungen gehen über den tatsächlichen Inhalt der Studien hinaus. In 73 Prozent aller Fälle haben das Uwe Peters von der Universität Utrecht sowie Benjamin Chin-Yee von der University of Cambridge und der Western University nachgewiesen.

Wunsch nach Genauigkeit

Die Forscher haben ChatGPT und DeepSeek getestet und Tausende von Chatbot-generierten Wissenschaftszusammenfassungen analysiert. Ergebnis: Die meisten Modelle liefern durchweg weiter gefasste Schlussfolgerungen als jene, die aus den Texten hervorgehen. Überraschenderweise verschärften Aufforderungen zur Genauigkeit das Problem, und neuere KI-Modelle schnitten schlechter ab als ältere. Bewertet worden ist, wie genau zehn führende Modelle Artikel aus renommierten Wissenschafts- und Medizinzeitschriften wie "Nature", "Science" und "Lancet" zusammenfassen.

Insgesamt wurden 4.900 von den Tools erstellte Texte ausgewertet. Mehr oder weniger übertrieben sie Aussagen aus den Originaltexten, oft auf subtile, aber wirkungsvolle Weise, indem sie beispielsweise vorsichtige Aussagen in der Vergangenheitsform wie "Die Behandlung war in dieser Studie wirksam" in eine pauschalere Aussage in der Gegenwartsform wie "Die Behandlung ist wirksam" umformulierten. Diese Änderungen könnten Leser zur irrigen Annahme verleiten, dass die Ergebnisse viel allgemeiner gültig sind, als dies tatsächlich der Fall ist, so die Warnung.

Chatbots verallgemeinern

Peters und Chin-Yee haben in der Folge auch von Chatbots und Menschen generierte Zusammenfassungen derselben Artikel miteinander verglichen. Chatbots neigten fast fünfmal häufiger zu weitreichenden Verallgemeinerungen als ihre menschlichen Kollegen. "Frühere Studien haben gezeigt, dass Überverallgemeinerungen in wissenschaftlichen Texten oft vorkommen. So ist es nicht überraschend, dass Modelle, die mit diesen Texten trainiert wurden, dieses Muster reproduzieren", so Chin-Yee. "Da Menschen KI-Antworten bevorzugen, die hilfreich und allgemein anwendbar klingen, könnten die Modelle durch Interaktionen lernen, flüssiges Schreiben und Verallgemeinerungen gegenüber Präzision zu bevorzugen", denkt Peters.

(Ende)

Aussender:	pressetext.redaktion
Ansprechpartner:	Wolfgang Kempkens
Tel.:	+43-1-81140-300
E-Mail:	kempkens@pressetext.com
Website:	www.pressetext.com

Login

Passwort vergessen?

Warenkorb

BUSINESS

FORSCHUNG

LEBEN

ChatGPT und Co übertreiben bei Fachtexten

Wissenschaftliche Untersuchung von 4.900 generierten Beiträgen zeigt zu weit gefasste Ergebnisse

IR-NEWS

Video-News

Qualität, Reichweite und hohe Resonanz

Login

Passwort vergessen?

Warenkorb

BUSINESS

FORSCHUNG

LEBEN

ChatGPT und Co übertreiben bei Fachtexten

Wissenschaftliche Untersuchung von 4.900 generierten Beiträgen zeigt zu weit gefasste Ergebnisse

IR-NEWS

Video-News