Veo 3 Startbild

Google schlägt Sora 2 in Benchmarks

Veo 3.1 Update überzeugt bei Bild und Ton und führt gleichzeitig neue Funktionen ein.

Andreas Becker Nano Banana
Veo 3 Startbild

Google DeepMind hat mit Veo 3.1 ein bedeutendes Upgrade für sein KI-Videomodell veröffentlicht. Die neue Version verbessert nicht nur die Bildqualität und die Genauigkeit bei der Umsetzung von Texteingaben, sondern übertrifft in direkten Vergleichen auch den Vorgänger Veo 3 und Konkurrenzmodelle wie Sora 2. Besonders die gesteigerte Konsistenz und der filmische Realismus stehen im Fokus.

Besser, schärfer und verständiger

Der Sprung von Version 3 zu 3.1 zeigt sich vor allem in drei Kernbereichen. Veo 3.1 erzeugt Videos mit höherem Realismus, insbesondere bei Texturen und der Darstellung von physikalischen Eigenschaften. Zudem wurde die sogenannte Prompt-Treue verbessert, das Modell setzt also die Anweisungen des Nutzers genauer und mit weniger Fehlinterpretationen um.

Die wohl wichtigste Neuerung ist die gesteigerte Konsistenz. Charaktere und Objekte behalten über mehrere Szenen hinweg ihr Aussehen und ihre Eigenschaften bei, ein entscheidender Faktor für erzählerische Inhalte. Frühere Schwächen, wie plötzliche Veränderungen im Hintergrund oder bei Gesichtern, wurden gezielt adressiert.

Veo 3.1 dominiert im direkten Vergleich

Google untermauert die Fortschritte mit neuen Benchmark-Ergebnissen. In von Menschen durchgeführten Side-by-Side-Bewertungen wurde Veo 3.1 klar vor Veo 3 und führenden Konkurrenzmodellen eingestuft. Bei der visuellen Qualität bevorzugten die Tester in 54,6 Prozent der Fälle Veo 3.1 gegenüber Veo 3.

Noch deutlicher fällt das Ergebnis bei der Genauigkeit der Prompts aus. Hier sahen die menschlichen Bewerter Veo 3.1 in 59,8 Prozent der Vergleiche vorne. Diese Zahlen deuten darauf hin, dass Google nicht nur die Ästhetik, sondern vor allem das grundlegende Verständnis und die zuverlässige Umsetzung von kreativen Ideen verbessert hat.

Quelle: Google - Benchmark über mehrere Kategorien, Veo 3.1 vs andere Bildgeneratoren.

Bearbeitung direkt in der Szene

Ein weiterer entscheidender Fortschritt sind die neuen Bearbeitungswerkzeuge. Mit der "Insert"-Funktion können Nutzer jetzt beliebige Objekte nachträglich in eine generierte Szene einfügen. Die KI analysiert dabei selbstständig Lichtverhältnisse, Schatten und den Stil des Videos, um das neue Element nahtlos zu integrieren.

Google hat zudem angekündigt, dass bald eine "Remove"-Funktion folgen wird. Diese soll es ermöglichen, unerwünschte Objekte oder Personen aus einem Clip zu entfernen, während die KI den Hintergrund intelligent rekonstruiert. Diese Werkzeuge heben die Technologie von einer reinen Generierungs-KI zu einem interaktiven Bearbeitungstool.

Der Ton macht das Video

Die größte funktionale Erweiterung von Veo 3.1 ist die native Audio-Generierung. Das Modell erzeugt nun passenden Ton direkt zusammen mit dem Videomaterial. Nutzer können in ihren Prompts nicht nur die visuellen Aspekte, sondern auch Geräusche, Dialoge oder die musikalische Stimmung beschreiben.

Dieser integrierte Ansatz vereinfacht den Produktionsprozess erheblich, da keine separaten Werkzeuge für die Vertonung mehr nötig sind. Die KI synchronisiert den Ton mit den visuellen Ereignissen im Clip. Veo 3.1 ist ab sofort in Googles Videobearbeitungstool Flow sowie über die Gemini API und Vertex AI verfügbar.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.