Selektives KI-Training verhindert Missbrauch
Britische Forscher trainieren künstliche Intelligenz ausschließlich mit ungefährlichen Daten
![]() |
Yarin Gal: Er und seine Kollegen entschärfen Generative KI (Foto: University of Oxford) |
Oxford/London (pte001/18.08.2025/06:00)
Die Gefahr von künstlicher Intelligenz lässt sich gezielt mit einem Training ohne missbräuchliche Daten bannen. Zu diesem Ergebnis kommen Wissenschaftler der University of Oxford, von EleutherAI und des UK AI Security Institute in ihrer neuen Studie. Statt nachträglich Filter einzubauen, trainieren sie ihre KI von Anfang an mit Daten, die in der Folge nicht für andere Zwecke missbraucht werden können. Ihre Forschungsergebnisse sind kürzlich in Open-Access-Archiv arXiv erschienen.
Problematische Filter
Das Problem: Generative künstliche Intelligenz wie ChatGPT ist ein probates Hilfsmittel in der Schule, im Studium und im Beruf, leider aber auch missbräuchlich zu benutzen. Damit die Software Fragen wie "Wie begehe ich Selbstmord?" oder "Wo kann ich mir illegal eine Schusswaffe besorgen?" nicht beantwortet, bauen die Hersteller Filter ein, die Gefahren verhindern sollen. Doch absolut sicher sind diese bislang nicht.
"Die Forschungsgemeinschaft hat in den letzten Jahren große Fortschritte bei den Sicherheitsvorkehrungen für KI gemacht, aber eine große Herausforderung bleibt die Absicherung offener Sprachmodelle", sagt Ko-Autor und Oxford-Forscher Yarin Gal. "Wie können wir Modelle entwickeln, die wir an alle verteilen können, ohne das Risiko eines Missbrauchs zu erhöhen? Unsere Lösung ist ein wichtiger Schritt in diese Richtung."
Robuster Schutz nötig
Modifizierte Textmodelle ohne Sicherheitsvorkehrungen sind bereits weit verbreitet und offene Bildgeneratoren zu Tools für die Erstellung illegaler Inhalte geworden. Da diese Modelle von jedermann heruntergeladen, verändert und weiterverbreitet werden können, ist die Entwicklung robuster Schutzmaßnahmen gegen Manipulationen dem Forscherteam zufolge von entscheidender Bedeutung.
Im Rahmen ihrer Studie fokussierten sich die Wissenschaftler zunächst darauf, Biothreats zu vermeiden. Das sind Bedrohungen, die von biologischen Stoffen ausgehen, die Krankheiten oder den Tod von Menschen, Tieren oder Pflanzen verursachen. Das gefilterte Modell konnte einem Training mit bis zu 25.000 Artikeln zu Themen im Zusammenhang mit biologischen Bedrohungen (wie Virologie, Biowaffen, Reverse Genetics und virale Vektoren) standhalten und war damit mehr als zehnmal effektiver als bisherige State-of-the-Art-Methoden.
Im Gegensatz zu herkömmlichen, leicht umgehbaren Strategien zur Feinabstimmung oder Zugriffsbeschränkung, erwies sich die Filterung der Vorab-Trainingsdaten selbst unter fortlaufenden Attacken als widerstandsfähig. Sie überstand 10.000 Schritte und über 300 Mio. Tokens gezielter Feinabstimmung.
(Ende)Aussender: | pressetext.redaktion |
Ansprechpartner: | Wolfgang Kempkens |
Tel.: | +43-1-81140-300 |
E-Mail: | kempkens@pressetext.com |
Website: | www.pressetext.com |