Filmgeräusche auf Knopfdruck: Adobes MultiFoley im Fokus

Ein innovatives KI-System verwandelt Texte, Töne und Bilder in perfekte Audio-Effekte.

Kurzfassung | Caramba, 02.12.24
Adobe MultiFoley
Flux Schnell | All-AI.de

Worum geht es?

Die Zeiten, in denen Foley-Künstler mühsam Geräusche für Filme und Serien erstellen mussten, könnten gezählt sein. Forschende der University of Michigan und Adobe Research haben mit dem neuen KI-System MultiFoley eine Lösung entwickelt, die passende Sounds automatisch generiert. Das Besondere: Die Geräusche lassen sich flexibel per Text, Audio oder Video steuern – und synchronisieren sich präzise mit dem Bild.

News

KI trifft Kreativität: MultiFoley in Aktion

Mit MultiFoley zeigt Adobe, wie vielseitig generative KI inzwischen ist. Nutzer können das System mit Text-Prompts, Referenzgeräuschen oder visuellen Eindrücken füttern. Ein Beispiel: Das Miauen einer Katze verwandelt sich nahtlos in das Brüllen eines Löwen – und bleibt dabei perfekt synchron zu den Lippenbewegungen im Video. Selbst ungewöhnliche Kombinationen, wie Schreibmaschinengeräusche, die wie Klaviermusik klingen, bewältigt das System spielend.

Für die hohe Qualität der Audiodateien sorgt ein ausgefeiltes Trainingsverfahren. MultiFoley wurde mit einer Mischung aus Internet-Videos und professionellen Soundbibliotheken trainiert. Das Resultat: Audio in voller Bandbreite mit 48 kHz – ein Niveau, das sich in der Film- und Spieleproduktion sehen lassen kann.

Synchronisation auf den Punkt gebracht

Eine der beeindruckendsten Eigenschaften von MultiFoley ist die präzise zeitliche Abstimmung. Möglich macht dies ein cleverer Synchronisationsmechanismus, der visuelle Merkmale eines Videos mit 8 Frames pro Sekunde analysiert und diese auf die höhere Audio-Abtastrate von 40 Hz hochrechnet. Die durchschnittliche Synchronisationsgenauigkeit liegt bei 0,8 Sekunden – ein klarer Fortschritt im Vergleich zu bisherigen Systemen, die oft über einer Sekunde Versatz hatten.

Besser als die Konkurrenz

Quantitative Tests und Nutzerbewertungen bestätigen, dass MultiFoley neue Maßstäbe setzt. Es übertrifft bestehende Modelle nicht nur in der Synchronisation, sondern auch in der semantischen Übereinstimmung von Text und Ton. Laut einer Studie bevorzugten 85,8 Prozent der Teilnehmer MultiFoley bei der Klangqualität, während 94,5 Prozent die Synchronisation als überlegen einstuften.

Allerdings gibt es auch noch Herausforderungen: Der aktuelle Datensatz ist relativ klein, was die Vielfalt der generierbaren Effekte einschränkt. Zudem stößt das System bei der gleichzeitigen Verarbeitung mehrerer Geräusche an Grenzen.

Zukunftsaussichten

Die Forschenden sind optimistisch, dass MultiFoley in Bereichen wie Filmproduktion, Spieleentwicklung und sogar im kreativen Hobbybereich eine Revolution auslösen könnte. Adobe plant, das System der Öffentlichkeit zugänglich zu machen. Wann MultiFoley den Sprung in kommerzielle Produkte schafft, ist allerdings noch offen. Angesichts Adobes wachsender KI-Palette, etwa in Premiere Pro, scheint dies jedoch nur eine Frage der Zeit.

Ausblick

MultiFoley zeigt eindrucksvoll, wie weit KI in der kreativen Content-Erstellung gekommen ist. Zwar gibt es noch Optimierungsbedarf, aber die Richtung stimmt. Ob das System den Menschen am Foley-Tisch ersetzt oder lediglich ein weiteres Werkzeug im kreativen Prozess wird, bleibt spannend zu beobachten. Die Film- und Spieleindustrie dürfte jedenfalls hellhörig werden.

Profilbild Caramba

Short

  • Adobe und die University of Michigan haben mit MultiFoley eine KI entwickelt, die Foley-Sounds automatisch generiert.
  • Das System nutzt Text, Audio oder Video als Eingabe und synchronisiert die Sounds präzise mit visuellen Inhalten.
  • MultiFoley überzeugt durch hohe Klangqualität und überlegene Synchronisation, stößt jedoch bei komplexen Szenarien an Grenzen.
  • Die Technologie könnte die Film- und Spieleindustrie nachhaltig verändern.

Kommentieren, diskutieren und teilen!

Anmelden