Zwei Kämpfer

DeepMind D4RT: Google bringt der KI die vierte Dimension bei

Statische 3D-Modelle waren gestern. Das neue System versteht Zeit und Bewegung und revolutioniert damit die Robotik.

Andreas Becker Nano Banana
Zwei Kämpfer

Google DeepMind überwindet die Grenzen statischer 3D-Modelle und präsentiert mit D4RT einen Ansatz für dynamische Szenenrekonstruktion. Das System erfasst nicht nur räumliche Tiefe, sondern versteht Bewegungsabläufe in Echtzeit, was fundamentale Fortschritte für Robotik und autonome Systeme verspricht.

Vom statischen Abbild zum dynamischen Verständnis

Bisherige Verfahren zur dreidimensionalen Erfassung der Welt stießen oft an ihre Grenzen, sobald Bewegung ins Spiel kam. Technologien wie Neural Radiance Fields (NeRF) oder das 2023 populär gewordene Gaussian Splatting konnten zwar fotorealistische 3D-Räume aus 2D-Bildern errechnen, setzten jedoch meist eine starre Umgebung voraus. Sobald sich ein Objekt bewegte, entstanden visuelle Artefakte oder "Geisterbilder".

D4RT (Dynamic 4D Reconstruction and Tracking) löst dieses Problem durch die Integration der Zeit als vierte Dimension. Das Modell differenziert präzise zwischen der Eigenbewegung der Kamera und der tatsächlichen Bewegung von Objekten im Raum. DeepMind gelingt es damit, eine Szene nicht als eingefrorenen Moment, sondern als kontinuierlichen Fluss zu repräsentieren.

Quelle: Google

Präzision durch objektzentriertes Tracking

Die technische Innovation liegt in der Art und Weise, wie D4RT Informationen verarbeitet. Das System nutzt Videosequenzen aus verschiedenen Blickwinkeln, um gleichzeitig die Geometrie der Umgebung und die Trajektorien bewegter Elemente zu lernen. Dies ermöglicht die sogenannte "Novel View Synthesis" – das Generieren völlig neuer Kameraperspektiven – auch für Szenen mit komplexen Handlungen, wie etwa rennenden Hunden oder fahrenden Autos.

Anders als frühere Ansätze, die oft auf mühsam annotierte Daten angewiesen waren, lernt D4RT weitgehend unüberwacht aus den Rohdaten. Das System identifiziert selbstständig, welche Pixel zu einem stabilen Hintergrund gehören und welche Teil eines dynamischen Objekts sind. Diese Segmentierung erfolgt auf einer Ebene, die Rückschlüsse auf die physikalische Beschaffenheit und Permanenz von Objekten zulässt.

Anzeige

Der Weg zu echten Weltmodellen

Die Implikationen dieser Technologie reichen weit über hübsche 3D-Videos hinaus. Für die Entwicklung autonomer Agenten und Roboter ist das Verständnis von Kausalität und zeitlicher Abfolge essenziell. Ein Roboter muss wissen, dass ein Ball, der hinter ein Sofa rollt, dort weiterhin existiert und sich entlang einer Bahn bewegt.

D4RT gilt als wichtiger Schritt hin zu robusten "World Models" – KI-Systemen, die eine interne Repräsentation der physikalischen Welt besitzen. Wenn Maschinen die Dynamik ihrer Umgebung verlässlich vorhersagen können, erhöht dies die Sicherheit und Effizienz in der Interaktion zwischen Mensch und Maschine drastisch. Die Forschungsergebnisse zeigen, dass wir uns von der reinen Bilderkennung hin zu einem echten Szenenverständnis bewegen.

Quelle: Google

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.