TikTok-Mutter zeigt Goku: Wird KI jetzt Hollywood ersetzen?
ByteDance entwickelt mit Goku+ ein System, das hochrealistische menschliche Avatare für Werbeclips erschafft.

Quelle: Goku | All-AI.de
EINLEITUNG
Das chinesische Technologieunternehmen ByteDance, bekannt als Muttergesellschaft von TikTok, hat mit "Goku" eine neue KI-basierte Plattform vorgestellt, die sowohl Bilder als auch Videos aus Texteingaben generieren kann. Dieses Modell verspricht, die Erstellung digitaler Inhalte zu revolutionieren und könnte insbesondere in den Bereichen Medienproduktion, Werbung und Videospiele Anwendung finden.
NEWS
Einheitliche Architektur für Bilder und Videos
Goku basiert auf einer neuartigen Transformer-Architektur mit 2 bis 8 Milliarden Parametern, die sowohl Bilder als auch Videos in einem gemeinsamen latenten Raum verarbeitet. Ein variationaler Autoencoder (VAE) komprimiert dabei die visuellen Daten, ähnlich einer Datenkompression, bevor sie vom Transformer-Modell verarbeitet werden. Durch diese Architektur und den Einsatz des "Rectified Flow"-Ansatzes anstelle herkömmlicher Diffusionsmethoden kann Goku qualitativ hochwertige und konsistente Ergebnisse für beide Medienformate erzeugen.
Quelle: Bytedance
Leistungsstarke Ergebnisse in Benchmarks
In verschiedenen Benchmarks zeigt Goku beeindruckende Leistungen. Im Bereich der Text-zu-Bild-Generierung erzielt Goku-T2I hohe Werte in visueller Qualität und Text-Bild-Übereinstimmung. Bei der Text-zu-Video-Generierung erreicht Goku-T2V Spitzenwerte, beispielsweise einen Wert von 84,85 auf VBench, und übertrifft damit mehrere führende kommerzielle Text-zu-Video-Modelle anderer Unternehmen.
Goku+: Spezialisierung auf Werbeinhalte
Eine Weiterentwicklung namens Goku+ optimiert das System speziell für Werbeszenarien mit menschlichen Avataren. Goku+ kann aus Texteingaben hyperrealistische menschliche Videos mit stabilen Handbewegungen sowie ausdrucksstarker Mimik und Gestik erzeugen. Zudem beherrscht es die Umwandlung von Produktbildern in Videoclips und die menschliche Interaktion mit diesen. ByteDance verspricht so maßgeschneiderte HD-Videos für die Werbung zu 100-mal niedrigeren Kosten als bisher.
Quelle: Bytedance
Potenzielle Anwendungen und Zukunftsaussichten
Die Goku-Modelle bieten vielfältige Anwendungsmöglichkeiten, insbesondere in der Medienproduktion, Werbung, Videospielen und für Weltmodell-Simulatoren. Mit der Fähigkeit, sowohl Bilder als auch Videos aus Texteingaben zu generieren, könnten sie die Art und Weise, wie digitale Inhalte erstellt werden, grundlegend verändern. Es bleibt abzuwarten, wie ByteDance diese Technologie in zukünftigen Produkten und Dienstleistungen integrieren wird.
AUSBLICK
UNTERSTÜTZUNG
Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.
KURZFASSUNG
- ByteDance hat mit Goku eine leistungsstarke KI entwickelt, die sowohl realistische Bilder als auch Videos aus Texteingaben generieren kann.
- Die zugrunde liegende Transformer-Architektur kombiniert innovative Technologien wie "Rectified Flow" für eine verbesserte Bild- und Videostabilität.
- Goku übertrifft in Benchmarks etablierte Modelle und erreicht beeindruckende Werte in Bild- und Videoqualität.
- Mit Goku+ fokussiert sich ByteDance auf hyperrealistische Avatare und Werbeinhalte, die bisherige Produktionskosten drastisch senken könnten.
- Die Technologie bietet enormes Potenzial für Medien, Werbung, Gaming und die Erstellung digitaler Inhalte in nie dagewesener Qualität.