TikTok-Mutter zeigt Goku: Wird KI jetzt Hollywood ersetzen?

ByteDance entwickelt mit Goku+ ein System, das hochrealistische menschliche Avatare für Werbeclips erschafft.

Kurzfassung | Silas, 11.02.25
Zwei Personen im Regen
Quelle: Goku | All-AI.de

EINLEITUNG

Das chinesische Technologieunternehmen ByteDance, bekannt als Muttergesellschaft von TikTok, hat mit "Goku" eine neue KI-basierte Plattform vorgestellt, die sowohl Bilder als auch Videos aus Texteingaben generieren kann. Dieses Modell verspricht, die Erstellung digitaler Inhalte zu revolutionieren und könnte insbesondere in den Bereichen Medienproduktion, Werbung und Videospiele Anwendung finden.

NEWS

Einheitliche Architektur für Bilder und Videos

Goku basiert auf einer neuartigen Transformer-Architektur mit 2 bis 8 Milliarden Parametern, die sowohl Bilder als auch Videos in einem gemeinsamen latenten Raum verarbeitet. Ein variationaler Autoencoder (VAE) komprimiert dabei die visuellen Daten, ähnlich einer Datenkompression, bevor sie vom Transformer-Modell verarbeitet werden. Durch diese Architektur und den Einsatz des "Rectified Flow"-Ansatzes anstelle herkömmlicher Diffusionsmethoden kann Goku qualitativ hochwertige und konsistente Ergebnisse für beide Medienformate erzeugen.

Quelle: Bytedance

Leistungsstarke Ergebnisse in Benchmarks

In verschiedenen Benchmarks zeigt Goku beeindruckende Leistungen. Im Bereich der Text-zu-Bild-Generierung erzielt Goku-T2I hohe Werte in visueller Qualität und Text-Bild-Übereinstimmung. Bei der Text-zu-Video-Generierung erreicht Goku-T2V Spitzenwerte, beispielsweise einen Wert von 84,85 auf VBench, und übertrifft damit mehrere führende kommerzielle Text-zu-Video-Modelle anderer Unternehmen.

Goku+: Spezialisierung auf Werbeinhalte

Eine Weiterentwicklung namens Goku+ optimiert das System speziell für Werbeszenarien mit menschlichen Avataren. Goku+ kann aus Texteingaben hyperrealistische menschliche Videos mit stabilen Handbewegungen sowie ausdrucksstarker Mimik und Gestik erzeugen. Zudem beherrscht es die Umwandlung von Produktbildern in Videoclips und die menschliche Interaktion mit diesen. ByteDance verspricht so maßgeschneiderte HD-Videos für die Werbung zu 100-mal niedrigeren Kosten als bisher.

Quelle: Bytedance

Potenzielle Anwendungen und Zukunftsaussichten

Die Goku-Modelle bieten vielfältige Anwendungsmöglichkeiten, insbesondere in der Medienproduktion, Werbung, Videospielen und für Weltmodell-Simulatoren. Mit der Fähigkeit, sowohl Bilder als auch Videos aus Texteingaben zu generieren, könnten sie die Art und Weise, wie digitale Inhalte erstellt werden, grundlegend verändern. Es bleibt abzuwarten, wie ByteDance diese Technologie in zukünftigen Produkten und Dienstleistungen integrieren wird.

AUSBLICK

Interessanter Ansatz

Anstatt einen KI-Generator für alles zu entwickeln, erst mal mit einem KI-Generator für bestimmte Anwendungen anzufangen, macht durchaus Sinn. Gerade mit den aktuellen Einschränkungen bei der Video-Generierung und dessen Hardware-Anforderungen.

Profilbild Silas

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

KURZFASSUNG

  • ByteDance hat mit Goku eine leistungsstarke KI entwickelt, die sowohl realistische Bilder als auch Videos aus Texteingaben generieren kann.
  • Die zugrunde liegende Transformer-Architektur kombiniert innovative Technologien wie "Rectified Flow" für eine verbesserte Bild- und Videostabilität.
  • Goku übertrifft in Benchmarks etablierte Modelle und erreicht beeindruckende Werte in Bild- und Videoqualität.
  • Mit Goku+ fokussiert sich ByteDance auf hyperrealistische Avatare und Werbeinhalte, die bisherige Produktionskosten drastisch senken könnten.
  • Die Technologie bietet enormes Potenzial für Medien, Werbung, Gaming und die Erstellung digitaler Inhalte in nie dagewesener Qualität.

QUELLEN