pte20251020014 in Forschung

MIT stattet KI mit visueller Komponente aus

Vision-Language-Modell verfolgt Objekte oder Personen und hilft effektiv bei der Lokalisierung


KI erkennt die richtige Katze, auch wenn sie anders aussieht (Bilder: mit.edu)
KI erkennt die richtige Katze, auch wenn sie anders aussieht (Bilder: mit.edu)

Cambridge (pte014/20.10.2025/11:30)

Ein internationales Forscher-Team unter der Leitung des Massachusetts Institute of Technology (MIT) bringt der Künstlichen Intelligenz (KI) das Unterscheiden von Tieren und Objekten bei. Es handelt sich um ein sogenanntes Vision-Language-Modell (VLM), also ein großes Sprachmodell wie ChatGPT mit einer visuellen Komponente.

Hilfe für Sehbehinderte

Dieser neue Ansatz könnte künftigen KI-Systemen helfen, bestimmte Objekte über einen längeren Zeitraum hinweg zu verfolgen, wie beispielsweise den Rucksack eines Kindes, oder Objekte von Interesse zu lokalisieren, wie etwa eine Tierart im Rahmen der ökologischen Überwachung. Er könnte auch bei der Entwicklung von KI-gesteuerten assistiven Technologien helfen, die sehbehinderte Nutzer unterstützen, bestimmte Gegenstände in einem Raum zu finden.

"Unser Modell ist in der Lage, aus dem Kontext zu lernen, genau wie Menschen. Wir müssen es nicht für jede neue Aufgabe neu trainieren, sondern können einfach ein paar Beispiele bereitstellen. Aus dem Kontext leitet es dann ab, wie die Aufgabe zu erledigen ist", verdeutlicht Jehanzeb Mirza, Postdoktorand im Fach Computer Vision des MIT, die Funktionsfähigkeit.

Erkennungsfähigkeit steigt

Das Team hat die KI mit Videoclips trainiert, die dasselbe Objekt in unterschiedlichen Posen und Umgebungen zeigt. "Durch die Verwendung mehrerer Bilder desselben Objekts in unterschiedlichen Kontexten ermutigen wir das Modell, das Objekt von Interesse konsistent zu lokalisieren", so Mirza. Letztlich verbessert die Feinabstimmung der VLMs mit den Datensätzen die Genauigkeit bei der individuellen Erkennung um etwa zwölf Prozent. In der Spitze sind es sogar 21 Prozent, heißt es.

(Ende)
Aussender: pressetext.redaktion
Ansprechpartner: Wolfgang Kempkens
Tel.: +43-1-81140-300
E-Mail: kempkens@pressetext.com
Website: www.pressetext.com
|