ElevenLabs klont jetzt auch noch menschliche Emotionen

Das neue KI Modell analysiert direkt die Tonspur der Sprecher. Übersetzungen klingen dadurch deutlich natürlicher.

Andreas Becker28.05.26 GPT-Images-2.0

Kurzfassung Quellen

ElevenLabs hat das neue KI-Modell Dubbing v2 für automatische Videosynchronisation veröffentlicht.
Die Software analysiert direkte Audiodaten und übernimmt Emotionen sowie das Sprechtempo direkt in die Zielsprache.
Nutzer können ihre Inhalte nun authentisch in mehr als 90 verschiedenen Sprachen vertonen lassen.
Die integrierte Timing-Logik sorgt für eine saubere Lippensynchronität ganz ohne manuelle Anpassungen.

Das neue KI-Modell Dubbing v2 von ElevenLabs übersetzt gesprochene Inhalte in über 90 Sprachen und bewahrt dabei die ursprüngliche Emotion und Betonung. Das funktioniert, weil eine Sprache ohne Umwege direkt in eine andere umgewandelt wird. Der Umweg über Text entfällt.

Emotionen bleiben beim Übersetzen erhalten

Bisherige KI-Übersetzungen klangen oft mechanisch, da sie auf reinen Textübersetzungen basierten. ElevenLabs geht mit der neuen Version einen anderen Weg und wertet direkt die originale Tonspur aus. Dadurch erkennt das System die genaue Sprechweise der aufnehmenden Person.

Tonfall, Sprechtempo und emotionale Nuancen fließen auf diese Weise nahtlos in die Zielsprache ein. Die Stimme der Person wird automatisch geklont, sodass der persönliche Charakter der Aufnahme bestehen bleibt. Manuelle Anpassungen an der Tonhöhe sind für diesen Prozess nicht nötig.

Bessere Synchronität und mehr Sprachen

Die Entwickler haben die Anzahl der unterstützten Sprachen deutlich erhöht. Anstelle der bisherigen 29 stehen Nutzern nun mehr als 90 verschiedene Dialekte und Sprachen zur Auswahl.

Das aktualisierte KI-Modell achtet zudem streng auf das richtige Timing bei der Übersetzung. Die generierte Sprachausgabe richtet sich nach den natürlichen Pausen des Originals, wodurch Bild und Ton exakt synchronisiert bleiben. Die Software übersetzt darüber hinaus nicht wortwörtlich, sondern passt Phrasen direkt an den landestypischen Sprachgebrauch an.

Lösungen für verschiedene Produktionsgrößen

Die Technologie richtet sich an unterschiedliche Anwendergruppen. Für Marketingfachleute und private Videoproduzenten steht die Funktion innerhalb der Plattform ElevenCreative zur Verfügung. Dort reicht ein einfacher Upload der Mediendateien aus, um den Vorgang komplett abzuschließen.

Große Filmstudios und Sendeanstalten erhalten mit ElevenProductions einen erweiterten Service. Hier übernehmen menschliche Fachleute die erste Übersetzung und die finale Tonmischung, während die künstliche Intelligenz ausschließlich für die Generierung der Audiospuren zuständig ist. Eine Schnittstelle für Entwickler befindet sich aktuell noch in der Vorbereitung.

Zum Start gewährt das Unternehmen seinen Nutzern ein temporäres Kontingent an zusätzlichen Synchronisationsminuten. Diese Aktion läuft für sieben Tage und hängt von der gewählten Abonnementstufe ab. Interessenten erhalten so die Möglichkeit, die Technologie in eigenen Projekten zu testen. Danach gelten wieder die regulären Konditionen der entsprechenden Tarife.