pte20260317001 in Forschung

Roboter versteht dank KI Gesten und Sprache

Experten der Brown University setzen Befehle mit Erkenntnissen der Hundeforschung besser um


Erfolgreicher Test mit Sprache und Gestik im Labor (Illustration: Tellex Lab, brown.edu)
Erfolgreicher Test mit Sprache und Gestik im Labor (Illustration: Tellex Lab, brown.edu)

Providence (pte001/17.03.2026/06:00)

Robotiker der Brown University verbessern die Kommunikation mit humanoiden Robotern, indem sie zuvor erteilte Befehle mit Gesten bei der Suche nach Objekten unterstützen, die nicht so leicht zu identifizieren sind. Die Erfolgsquote steigt mit dieser Methode deutlich an, so Doktorandin Ivy He, die sich auf die Interaktion zwischen Mensch und Computer spezialisiert hat.

KI für Gesten und Sprache

"Mit der aktuellen Technologie sind Roboter ziemlich gut darin, Objekte zu identifizieren, aber wenn die Umgebung unübersichtlich ist, sich Dinge bewegen oder von anderen Objekten verdeckt werden, wird das Ganze viel schwieriger. Mir geht es darum, sowohl Sprache als auch Gesten zu nutzen, um Robotern bei Suchaufgaben zu helfen", unterstreicht He.

Sie nutzt ein Verfahren namens "Partially Observable Markov Decision Process" (POMDP). Dabei wird das zu suchende Objekt nicht nur mit Worten beschrieben - "Hole die Tasse mit dem goldenen Rand" - sondern auch mit Gesten, etwa durch Fingerzeig auf ein ebenso aussehendes Gefäß. Das wird mit einem "Vision-Language-Modell" kombiniert. Dieses KI-System überträgt Gesten und natürliche Sprache in Handlungsanweisungen für Roboter.

Erstarrung effektiv gebannt

Diese Herangehensweise ermöglicht es einem Roboter, Schlussfolgerungen zu ziehen, wenn er unsicher ist, etwa wenn das Objekt, das er sucht, neben mehreren anderen liegt, die ähnlich aussehen. Oder wenn das Zielobjekt teilweise verborgen ist. Ohne POMDP würde die Maschine in einem solchen Fall nicht weiterwissen und gewissermaßen erstarren.

Mit dieser "Betriebsanleitung" rückt das Gerät dagegen ein wenig zur Seite, um das Objekt, das ihm am passendsten zu sein erscheint, unter einem besseren Blickwinkel sehen zu können. Um Gestik in die Befehlsausgabe einzubeziehen, hat sich He auf Erkenntnisse von Daphna Buchsbaum gestützt. Konkret geht es dabei um die unangefochtenen Weltmeister im Apportieren: Hunde - die auf menschliche Fingerzeige reagieren.

In Laborexperimenten haben die Forscher einen vierbeinigen Roboter aufgefordert, verschiedene im Laborraum verstreute Objekte zu finden. Die Experimente zeigen, dass der Roboter in fast 90 Prozent der Fälle das richtige Objekt lokalisieren konnte, wenn er Gesten und Sprache kombinierte - weitaus besser als bei der Verwendung nur einer der beiden Eingaben, so die Wissenschaftler abschließend.

(Ende)
Aussender: pressetext.redaktion
Ansprechpartner: Wolfgang Kempkens
Tel.: +43-1-81140-300
E-Mail: kempkens@pressetext.com
Website: www.pressetext.com
|