Ein Mensch erstellt KI-Videos

KI-Videos mit Ton: Alibaba fordert Google heraus

Alibabas neue Video-KI Wan2.5 kann jetzt auch Ton und ist viel günstiger als Veo 3. Beginnt jetzt ein neuer Preiskampf auf dem KI-Markt?

Ein Mensch erstellt KI-Videos
gpt-image-1 | All-AI.de

EINLEITUNG

Der chinesische Technologiekonzern Alibaba fordert Google auf dem Markt für KI-generierte Videos heraus. Mit der Vorstellung von Wan2.5-Preview positioniert sich das Unternehmen als direkter Konkurrent zu Googles führendem Modell Veo 3. Die entscheidende Neuerung ist die Fähigkeit, Videos mit passendem, synchronisiertem Ton zu erzeugen. Gleichzeitig markiert die Veröffentlichung einen Strategiewechsel: Statt auf Open Source setzt Alibaba nun auf ein kommerzielles, geschlossenes System.

NEWS

Mehr als nur bewegte Bilder

Die zentrale Innovation von Wan2.5-Preview ist die nahtlose Verbindung von Bild und Ton. Das System generiert bis zu zehn Sekunden lange Videos in 1080p-Auflösung und unterlegt diese mit Stimmen, Geräuscheffekten oder Musik. Die multimodale Architektur verarbeitet dabei nicht nur Textbefehle, sondern auch hochgeladene Bilder oder sogar reine Audiodateien als Ausgangspunkt für die Videoproduktion. Alibaba verspricht eine „kinoreife Ästhetik“ und stellt Werkzeuge zur Verfügung, die professionelle Kontrolle ermöglichen sollen.

Bei genauerem Hinsehen offenbart das System jedoch noch Schwächen. In ersten Demonstrationen sind visuelle und auditive Elemente nicht immer perfekt synchronisiert, etwa wenn die Bewegung eines Schlagzeugers nicht exakt zum Rhythmus der Musik passt. Auch die konsistente Darstellung von Gesichtern über mehrere Szenen hinweg bleibt eine Herausforderung. Solche Kinderkrankheiten sind für KI-Modelle in einem derart frühen Entwicklungsstadium jedoch nicht ungewöhnlich.

Quelle: Alibaba - Viedeo mit Wan 2.5 Beispielen

Preiskampf gegen den Marktführer

Mit der Audio-Integration zieht Wan2.5 technologisch mit Google Veo 3 gleich, das diese Funktion bereits im Mai 2024 einführte. Im direkten Vergleich zeigt sich ein klares Stärken- und Schwächenprofil. Während Google mit einer höheren Auflösung von bis zu 4K punktet, bietet Alibaba mit zehn Sekunden eine etwas längere Laufzeit und flexiblere Eingabeformate. Die chinesische KI unterstützt zudem mehrere Sprachen, was ihr einen Vorteil auf dem internationalen Markt verschaffen könnte.

Den deutlichsten Angriff startet Alibaba jedoch über den Preis. Die Kosten für die API-Nutzung liegen mit 5 bis 15 US-Cent pro Videosekunde erheblich unter den 15 bis 40 Cent, die Google für Veo 3 verlangt. Diese aggressive Preisgestaltung signalisiert die Absicht, schnell Entwickler und Unternehmen als Kunden zu gewinnen und Googles Vormachtstellung anzugreifen.

Abschied von Open Source

Die Entscheidung, Wan2.5 als geschlossenes System anzubieten, ist ein bemerkenswerter Kurswechsel. Das Vorgängermodell Wan2.2 war noch als Open-Source-Projekt frei verfügbar und erfreute sich in der Entwicklergemeinde großer Beliebtheit. Es lief sogar auf handelsüblicher Hardware und förderte so die unabhängige Forschung und Anwendung. Der neue kommerzielle Ansatz spiegelt den wachsenden Druck im KI-Sektor wider, die immensen Entwicklungskosten zu refinanzieren. Für die Open-Source-Community ist dieser Schritt eine Enttäuschung. Der Wettbewerb um die Vorherrschaft bei der KI-Videogenerierung hat eine neue Stufe erreicht, von der am Ende vor allem die Anwender profitieren könnten.

MITMACHEN

Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter - dauert nur Sekunden.

Teile diesen Beitrag

Folge uns auf Social Media

Unterstütze uns direkt

KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir!

KURZFASSUNG

  • Alibaba hat Ende September 2024 Wan2.5-Preview veröffentlicht, ein Video-KI-Modell mit nativer Audio-Erzeugung, das direkt mit Google Veo 3 konkurriert.
  • Das System nutzt eine multimodale Architektur und kann 10-sekündige 1080p-Videos mit synchronisiertem Audio, Stimmen und Hintergrundmusik generieren.
  • Im Gegensatz zu früheren Open-Source-Versionen ist Wan2.5 nur über kostenpflichtige APIs verfügbar, mit deutlich niedrigeren Preisen als Google Veo 3.
  • Die Qualität zeigt noch Schwächen bei der Audio-Video-Synchronisation und Gesichtskonsistenz, positioniert sich aber als kostengünstige Alternative mit multilingualer Unterstützung.

QUELLEN