Midjourney startet mit Video-Model „V1“

Per Klick vom Standbild zum Clip – wohin führt dieser strategische Schritt in der KI-Entwicklung?

Midjourney | All-AI.de

EINLEITUNG

Midjourney wagt den Sprung vom Standbild zum bewegten Clip. Mit dem neuen Videomodell „V1“ lassen sich aus KI-generierten Bildern animierte Szenen erzeugen – direkt per Button in der bekannten Oberfläche. Ist das der Beginn eines neuen Formats zwischen Prompt und Film?

NEWS

Image-to-Video: Was Midjourney in Bewegung bringt

Per „Animate“-Button wird aus einem einzelnen Bild eine animierte Szene. Im Automatikmodus berechnet das System Kamerafahrten und Objektbewegungen eigenständig. Wer mehr Kontrolle will, nutzt den manuellen Modus und definiert die Bewegungen per Texteingabe. Zwei Stufen stehen bereit: Mit „Low Motion“ entstehen ruhige Übergänge, bei „High Motion“ wirkt alles lebhafter – allerdings steigt auch die Fehlerquote. Die Länge lässt sich in Fünfsekunden-Schritten bis auf 20 Sekunden erhöhen, wobei auch der ursprüngliche Prompt angepasst werden kann, um das Ergebnis zu verfeinern.

Quelle: Midjourney - Beispiele

Technik mit Limits

Die animierten Sequenzen laufen in 480p bei 24 Bildern pro Sekunde und werden als MP4-Datei exportiert. Technische Details wie Bitrate oder Komprimierungsverfahren nennt Midjourney bislang nicht. Auch ein internes Upscaling ist momentan nicht vorgesehen. Die Resultate wirken visuell solide, doch man merkt, dass es sich um ein frühes Modell handelt – besonders bei schnellen Bewegungen oder komplexen Objekten.

Kostenfaktor Video

Wer ein Video anfordert, zahlt aktuell etwa das Achtfache eines regulären Bildjobs. Dafür gibt es vier animierte Varianten à fünf Sekunden, was grob einem Bild pro Sekunde entspricht. Laut Midjourney ist das deutlich günstiger als vergleichbare Angebote. Für Nutzer mit Pro-Plus-Abo testet die Plattform bereits einen Relax-Modus für Videos, der die Kosten mittelfristig senken soll.

Ein Schritt Richtung 3D-Welt

Laut Midjourney ist das V1-Modell nicht als Endprodukt gedacht, sondern als bewusster Zwischenschritt. Ziel sei es, über das Videofeedback langfristig auch das Bildmodell zu verbessern. Parallel arbeite man an Systemen, die Echtzeit und 3D unterstützen. V1 soll dabei als Testfeld dienen, um Nutzerverhalten, Schwächen und Potenziale besser zu verstehen.

Der Druck wächst: Google zieht mit Veo 3 davon

Während Midjourney seine Strategie in kleinen Etappen entfaltet, setzt Google mit Veo 3 bereits auf ein rundes Gesamtpaket. Das Modell generiert Videos mit Ton, Umgebungsgeräuschen und Sprache, ist in Gemini und Tools wie Canva eingebunden und wirkt deutlich ausgereifter. Doch trotz beeindruckender Technik gibt es Kritik: Die Inhalte wirken oft generisch, manche Ausgaben nähern sich problematischen Themen an. Vor allem das Risiko missbräuchlicher Anwendungen sorgt für Diskussionen.

AUSBLICK

Die erste Bewegung zählt

Midjourneys V1 ist kein Sprung, sondern ein vorsichtig gesetzter Schritt – und genau das könnte der richtige Weg sein. Statt den großen Wurf zu riskieren, setzt das Team auf Kontrolle, Feedback und Effizienz. Nutzer behalten die gewohnten Bildstile und ergänzen sie um Bewegung. Das wirkt zurückhaltend, aber strategisch klug. Während Google bereits die Bühne betritt, baut Midjourney noch an der Kulisse. Doch wer genau hinsieht, erkennt ein Muster: Preisoptimierung, Workflow-Integration und iterative Modellverbesserung deuten darauf hin, dass das Ziel kein hübsches Spielzeug ist – sondern ein System, das irgendwann ganze Welten bewegt.

UNSER ZIEL

Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen!

Teile diesen Beitrag

Folge uns auf Social Media

Keine KI-News mehr verpassen und direkt kommentieren!

Unterstütze uns direkt

Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support!

Youtube - Kanal

PayPal - Kaffee

KURZFASSUNG

Midjourney hat sein erstes Videomodell vorgestellt, mit dem sich aus KI-generierten Bildern kurze Clips erstellen lassen.
Per „Animate“-Button können Nutzer automatisch oder manuell Bewegung in Bilder bringen, bei Auflösung von 480p und 24 fps.
Die Kosten liegen deutlich über denen für Standbilder, sind laut Midjourney aber wesentlich günstiger als Konkurrenzlösungen.
Das Feature ist ein Zwischenschritt auf dem Weg zu komplexeren 3D-Systemen und soll über Feedback weiterentwickelt werden.
Mit Google Veo 3 entsteht gleichzeitig ein deutlich fortschrittlicheres Konkurrenzprodukt mit Soundintegration.