Neue KI-Modell Gemini Omni verändert die Videobearbeitung

Nutzer generieren mit dem KI-Modell realistische Clips aus Text, Bild und Ton.

Andreas Becker19.05.26 GPT-Images-2.0

Kurzfassung Quellen

Google präsentiert mit Gemini Omni ein völlig neues KI-Modell für die native Verarbeitung unterschiedlicher Medienformate. Die Architektur verknüpft Text, Bild, Ton und Video als direkte Eingaben zur Generierung neuer Inhalte. Im Mittelpunkt steht dabei die umfassende Videobearbeitung.

Natürliche Sprache steuert das Geschehen

Nutzer verändern vorhandene Videos durch einfache Texteingaben. Ein Prompt reicht aus, um komplette Umgebungen anzupassen oder physikalische Details wie spiegelnde Oberflächen hinzuzufügen. Das KI-Modell behält dabei die ursprünglichen Charaktere und den bisherigen Szenenverlauf konsequent im Gedächtnis.

Die zugrundeliegende Architektur kombiniert das Weltwissen der KI mit einem tiefen Verständnis für die reale Physik. Schwerkraft, kinetische Energie und Strömungsmechanik berechnet Gemini Omni bei der Generierung präzise. Dadurch entstehen realistische Videosequenzen, die über eine reine Mustererkennung hinausgehen.

Flexible Eingaben und digitale Avatare

Das neue KI-Modell verarbeitet verschiedene Referenzmedien zu einem kohärenten Clip. Entwickler kombinieren beispielsweise eine Zeichnung mit einer Audiodatei, woraus die KI ein passendes Video mit synchronisiertem Rhythmus erstellt.

Eine weitere neue Funktion umfasst die Erstellung persönlicher Avatare. Nutzer generieren digitale Abbilder von sich selbst, welche die eigene Stimme exakt reproduzieren. Alle generierten Inhalte erhalten zum Schutz vor Fälschungen automatisch das unsichtbare Wasserzeichen SynthID.

Verfügbarkeit von Gemini Omni Flash

Google veröffentlicht heute das erste Modell der neuen Familie unter dem Namen Gemini Omni Flash. Abonnenten der Stufen AI Plus, Pro und Ultra erhalten den Zugriff über die reguläre Gemini-App sowie Google Flow.

Gleichzeitig integriert der Konzern die Technologie ohne Zusatzkosten in YouTube Shorts und die YouTube Create App. Für Unternehmenskunden und Entwickler folgen in den kommenden Wochen entsprechende API-Schnittstellen.

Der Entwickler schaltet die Funktionen schrittweise auf globaler Ebene frei. Damit schließt das KI-Modell die Lücke zwischen reiner Textgenerierung und komplexer Videoproduktion auf mobilen Endgeräten.