Qwen VLA ist eine universelle KI für alle Roboter

Alibaba zeigt ein universelles Modell für die Robotik. Die KI versteht Befehle und handelt selbstständig.

Andreas Becker29.05.26 GPT-Images-2.0

Kurzfassung Quellen

Das Entwicklerteam hinter der KI Qwen hat das neue Modell Qwen-VLA vorgestellt. Das System versteht nicht nur visuelle und sprachliche Eingaben, sondern wandelt diese direkt in physische Handlungen für Roboter um. Damit überwindet die KI die reine Textausgabe.

Ein Modell für sämtliche Aufgaben

Bisherige Systeme in der Robotik arbeiten stark spezialisiert. Ein Programm kümmert sich um die Navigation, ein anderes steuert einen Greifarm und ein drittes ist fest an eine bestimmte Hardware gebunden. Qwen-VLA fasst diese Bereiche nun in einer universellen Architektur zusammen.

Die KI verarbeitet Kamerabilder sowie gesprochene Anweisungen und berechnet daraus den nächsten Bewegungsschritt. Dadurch lässt sich dieselbe Software für unterschiedlichste Robotertypen und Aufgabenstellungen einsetzen.

In aktuellen Tests erzielt das System bemerkenswerte Ergebnisse und schlägt teilweise sogar spezialisierte Programme. Bei der Benchmark-Aufgabe LIBERO verzeichnet Qwen-VLA eine Erfolgsquote von 97,9 Prozent. Auch in der simulierten Umgebung RoboTwin erreicht das Modell auf dem höchsten Schwierigkeitsgrad einen Wert von 87,2 Prozent.

Quelle: Alibaba

Der Trainingsprozess in vier Stufen

In der ersten Stufe lernt die Software, Textanweisungen in grundlegende Bewegungsabläufe zu übersetzen. Das System trainiert dabei ausschließlich die motorische Steuerung, komplett ohne visuelle Daten.

Während der zweiten Stufe verarbeitet das KI-Modell zusätzlich Kamerabilder. Es verknüpft nun das zuvor erlernte Textverständnis mit konkreten räumlichen Umgebungen.

In der dritten Stufe erfolgt ein gezieltes Feintuning. Ein Teil des Trainings optimiert allgemeine Aufgaben wie die Navigation, während ein anderer Teil das Modell mit echten Steuerungsdaten für physische Roboter anpasst.

Die vierte Stufe nutzt bestärkendes Lernen in einer simulierten Umgebung. Die KI trainiert dort die fehlerfreie Ausführung kompletter Aufgaben und überträgt dieses Wissen später auf echte, völlig unbekannte Szenarien.

Quelle: Alibaba

Handeln in unbekannten Situationen

Besonders in realen Tests mit einem zweiarmigen ALOHA-Roboter zeigt das Modell eine hohe Anpassungsfähigkeit. Wenn die KI mit unbekannten Farben, Objekten oder veränderten Lichtverhältnissen konfrontiert wird, führt sie Befehle weiterhin zuverlässig aus.

Gleichzeitig reagiert das System auf dynamische Veränderungen in der Umgebung. Fällt ein Gegenstand um oder bewegt sich das Ziel, passt Qwen-VLA den Bewegungsablauf an. Die Entwickler betonen, dass die KI keine festen Schablonen auswendig lernt, sondern das eigentliche Ziel einer Aufgabe begreift.

So packt es dann je nach Wetter die Kappe oder den Regenschirm ein.