Zerbrechen die Mitbewerber an Open AI’s SORA?

Nach Chat GPT und DALL-E ist es das nächste große Ding von OpenAI! Bisher hatte die in Brooklyn ansässige Firma Runway mit ihrem Gen 2-Modell die Text-to-Video-Krone inne. Ob sich das ändert?

AyCaramba, am 18.02.2024

OpenAI's Sora attackiert Runway

BEITRAG

Was ist Sora?

Sora ist im Wesentlichen ein Diffusionsmodell, das für die Erstellung von Videos entwickelt wurde. Diffusionsmodelle haben bereits durch ihre bemerkenswerte Fähigkeit, aus Text nahezu fotorealistische Bilder zu erzeugen, Aufmerksamkeit erregt. Einfach ausgedrückt, lernt ein Diffusionsmodell, zufälliges Rauschen durch wiederholte kleine Änderungen in Bilder umzuwandeln. OpenAI hat nun die gleichen Prinzipien erfolgreich auf die Erzeugung von Videos übertragen.

Was macht Sora so besonders?

Sora hat ein erstaunliches Maß an Kontrolle über die visuelle Komplexität.

Komplexe Szenen:

Man stelle sich eine Gruppe von Pandabären vor, die in einer Petrischale voller bunter Gummibärchen um die Wette ringen. Sora kann dieses Szenario in Sekundenschnelle zum Leben erwecken.

Emotionale Nuancen:

Von der Nahaufnahme einer Person, der Freudentränen über das Gesicht laufen, bis hin zu einer pulsierenden Stadt, in der viel los ist - Sora kann subtile Emotionen in Aktion einfangen.

Vielfältige Charaktere:

Das Modell erzeugt verschiedene, realistisch aussehende Personen und animiert sogar Tiere mit erstaunlicher Genauigkeit.

Kamerabewegungen:

Sora erzeugt nicht nur statische Szenen, sondern simuliert auch komplizierte Kamerabewegungen wie Zoomen, Schwenken oder sogar das Umkreisen von Motiven für dynamische Ergebnisse.


Wie funktioniert Sora im Gegensatz zu anderen Ansätzen?

Ähnlich wie seine bilderzeugenden Geschwister wird Sora auf große Mengen von Text- und Videodatenpaaren trainiert. Obwohl die genaue Funktionsweise noch nicht vollständig geklärt ist, liefert OpenAI diese allgemeinen Einblicke.

Die Macht von Text und Bild:

Sora lernt, indem es Millionen von Beschreibungen zusammen mit begleitendem Bildmaterial aufnimmt und so starke Verbindungen zwischen Sprache und bewegten Bildern herstellt.

Mehr als Frame-by-Frame:

Anstatt mühsam einzelne Frames zu rendern, generiert Sora ganze Videos gleichzeitig und sorgt so für mehr Konsistenz in Bewegung und Szenenkomposition.

Die Physik der realen Welt verstehen:

Obwohl Sora nicht unfehlbar ist, zeigt er doch ein rudimentäres Verständnis dafür, wie Naturkräfte wirken können. Wenn z.B. eine Kerze umfällt, ist es unwahrscheinlich, dass sie zwei Sekunden später irgendwo wie von Geisterhand wieder aufsteht.

Fabelwesen mit Kerze

Anwendungsmöglichkeiten für Sora?

Obwohl Sora noch in den Kinderschuhen steckt, verspricht es spannende Anwendungen in verschiedenen Branchen.

Filmemachen:

Filmemacher könnten die Vorproduktionsprozesse revolutionieren, indem sie Storyideen schnell mit groben, von KI generierten Videos testen, bevor sie in umfangreiche Dreharbeiten investieren.

Design und Animation:

Designer könnten in einem Bruchteil der Zeit Produktkonzepte entwerfen oder Marketingmaterialien realistischer gestalten.

Bildung:

Komplexe historische Ereignisse, anatomische Konzepte oder wissenschaftliche Prozesse könnten mühelos visualisiert werden, um das Lernen zu vertiefen.

Ist Sora bereit für die Masse?

Es ist wichtig zu wissen, dass Sora ein Forschungsprojekt und kein fehlerfreies Produkt ist. OpenAI spricht offen über einige Einschränkungen.

Länge und Qualität:

Die Videoclips sind derzeit maximal eine Minute lang, und hochauflösende Ergebnisse sind nur in kürzeren Ausschnitten verfügbar.

Fehlinterpretationen:

Sora ist nicht immer in der Lage, eine nuancierte schriftliche Beschreibung vollständig zu übersetzen.

Computerbezogene Anforderungen:

Die Erstellung langer, qualitativ hochwertiger Videos ist ressourcenintensiv und daher für Gelegenheitsnutzer weniger zugänglich.

Stadt Drohnenaufnahme

Sora vs. Runway

Fokus

Sora konzentriert sich derzeit eindeutig auf die Produktion hochwertiger Videos und verfügt über entsprechende Funktionen und Gimmicks. Die Kamera kann schwenken, es scheint Physik zu geben. Alles sieht so aus, wie es sein soll. Es gibt unglaublich viele Möglichkeiten mit der Texteingabe, der Bildeingabe und sogar die Verwendung von Gaming-Videos. Alles ist auf beste Qualität ausgerichtet.

Runway kann da bei weitem nicht mithalten und hat erst vor kurzem seine neue Version herausgebracht. Dennoch hat sich Runway etabliert und gilt als führend. Neben der Nutzerbasis verfügt Runway über diverse Bearbeitungswerkzeuge und ist einfach zu bedienen. Die Frage ist nur, wie lange Runway davon profitieren kann und was Runway für die Zukunft plant.

Was spricht konkret für Sora?

  1. Qualität

  2. Dauer der Videos

  3. Stilanpassung, ähnlich wie bei Bildertools kann man zwischen Stilen wie z.B. Animation oder Fotorealismus auswählen.

Hat Runway überhautpt eine Chance bei der Qualität von Sora?

Im Gegensatz zu Text und Bild gibt es hier noch nicht so viel Konkurrenz und deshalb glaube ich, dass beide Programme zunächst ihren Markt haben werden. Grundsätzlich ist Konkurrenz immer gut und wir Kunden profitieren davon. Man darf aber gespannt sein, wie sich Runway gegenüber Sora positionieren wird. Denn ich glaube nicht, dass Runway so schnell zurückschlagen kann.

Realistisches Auto von Sora

Fazit

Die Sora Wolke

Sora besticht durch Qualität

Wir sind gerade am Anfang und ich bin gespannt wie sich dann Sora wirklich in der Praxis schlägt. Jedenfalls scheint der Sprung von den bisherigen Konkurrenz-Tools hin zu Sora enorm zu sein, was Qualität und Länge der Videos angeht.

Kommentieren, diskutieren und teilen!

Anmelden