Neues KI Modell von NVIDIA simuliert die Realität
Cosmos 3 erstellt Videos und trainiert Roboter auf Basis echter physikalischer Gesetze.

NVIDIA hat mit Cosmos 3 das nach eigenen Angaben weltweit erste vollständig offene Omnimodell für physische KI veröffentlicht. Das System vereint visuelles Schlussfolgern sowie die Generierung von Aktionen und Umgebungen in einer einzigen Architektur.
Neue Architektur verbindet Verständnis und Generierung
Bisherige Systeme trennten das Verständnis der physischen Welt und die Erstellung von Inhalten strikt voneinander. Cosmos 3 führt diese Fähigkeiten nun durch eine spezielle Struktur zusammen, die auf zwei Hauptkomponenten basiert.
Ein autoregressiver Turm fungiert als eine Art Steuerzentrale. Diese Komponente interpretiert multimodale Eingaben wie Bilder, Videos oder Text und analysiert die physikalischen Zusammenhänge der Daten. Sie verarbeitet die Informationen in Sekundenbruchteilen.
Darauf aufbauend erstellt ein diffusionsbasierter Turm die eigentlichen Ausgaben. Er generiert künftige Beobachtungen und Handlungsabläufe, die sich eng an realen physikalischen Gesetzmäßigkeiten orientieren.
Quelle: Nvidia
Zwei Modellgrößen für unterschiedliche Ansprüche
Interessenten können zwischen zwei Varianten des Modells wählen, die auf verschiedene Hardware-Szenarien zugeschnitten sind. Cosmos 3 Nano verfügt über acht Milliarden Parameter. Es ist auf eine effiziente Ausführung auf Workstation-Grafikkarten wie der RTX PRO 6000 optimiert und zielt auf Echtzeitanwendungen in der Robotik ab.
Für rechenintensive Aufgaben steht Cosmos 3 Super mit 32 Milliarden Parametern zur Verfügung. Diese Version ist für den Einsatz in Rechenzentren mit Hopper- oder Blackwell-Karten konzipiert. Sie eignet sich primär für die Erstellung synthetischer Daten in sehr großem Maßstab.
Anzeige
Offenes Ökosystem und neue Datensätze
NVIDIA stellt die Modellgewichte über Plattformen wie Hugging Face frei zur Verfügung. Begleitend veröffentlicht das Unternehmen den Quellcode auf GitHub sowie Trainingsskripte für die nachträgliche Anpassung an spezifische Anwendungsfälle. Entwickler erhalten so eine solide Basis für eigene KI-Projekte.
Zusätzlich umfasst die Veröffentlichung sechs neue synthetische Datensätze. Diese Sets decken Bereiche wie autonomes Fahren, menschliche Bewegungen und Lagerlogistik ab.
Für die Bereitstellung in produktiven Umgebungen bietet der Anbieter sogenannte NIM-Microservices an. Diese unterstützen eine NVFP4-Quantisierung, welche die Verarbeitungsgeschwindigkeit durch eine reduzierte numerische Präzision deutlich erhöht.
Quelle: X
Führende Ergebnisse in Leistungstests
In aktuellen Überprüfungen erzielt das neue Modell Spitzenwerte unter den quelloffenen Systemen. Bei der Evaluierung von generierten Videos und physikalischem Verständnis belegt Cosmos 3 den ersten Platz in spezifischen Metriken wie PAI-Bench und Physics-IQ.
Auch bei der Steuerung von Robotern zeigt das System hohe Erfolgsquoten, was die Auswertungen des RoboLab-Benchmarks bestätigen. Mit diesen Werten liefert das Modell eine gute Grundlage für den produktiven Betrieb physischer KI-Systeme in der Industrie.

