ElevenLabs zeigt neue KI-Modelle und die Zukunft von Sprach-KI

Das kommende Eleven v4 passt Gefühle während des Sprechens dynamisch an. Zusätzlich übernehmen autonome Agenten nun komplexe Buchungen.

Silas Talon09.06.26 GPT-Images-2.0

Kurzfassung Quellen

ElevenLabs hat mit Eleven v4 ein neues Sprachmodell vorgestellt, das Emotionen während des Sprechens dynamisch anpasst.
Das neue Dubbing v2 ermöglicht Videoübersetzungen, bei denen der emotionale Originalton in der Zielsprache erhalten bleibt.
Autonome KI-Agenten der Plattform wickeln im Unternehmenseinsatz bereits täglich Millionen von komplexen Kundenanfragen ab.
Mit einem speziellen Spendenprogramm klont das Unternehmen zudem kostenlos die Stimmen von Patienten mit dauerhaftem Stimmverlust.

ElevenLabs hat auf dem Summit in Warschau neue KI-Modelle für Sprachsynthese und Synchronisation vorgestellt. Im Zentrum stehen das kommende Text-to-Speech-Modell Eleven v4 sowie Dubbing v2 für eine realitätsnahe Audioübersetzung. Zudem demonstrierte das Unternehmen erweiterte Funktionen für autonome KI-Agenten im Geschäftsumfeld.

Emotionale Kontrolle und verbesserte Synchronisation

Das neue KI-Modell Eleven v4 steht kurz vor der Veröffentlichung. Diese Variante bietet eine deutlich präzisere Kontrolle über die generierte Sprache. Die Software passt Emotionen nun dynamisch während eines einzigen Satzes an.

Das System beherrscht komplexe stimmliche Nuancen wie ein natürliches Flüstern oder echte Gesangseinlagen. Die Entwickler versprechen einen erheblich reduzierten maschinellen Klang der generierten Stimmen.

Gleichzeitig bringt das Unternehmen Dubbing v2 auf den Markt. Die neue Architektur nutzt das originale Audio als direkte Basis für die Synchronisation. So überträgt die KI den ursprünglichen Tonfall und die Emotionen passend in die Zielsprache.

Bisher folgte erst eine Umwandlung in Text, und dann eine Übersetzung. Das hat natürlich zu deutlichen Verlusten bei den Emotionen geführt.

Autonome Agenten übernehmen komplexe Prozesse

Neben der reinen Sprachsynthese baut ElevenLabs seine Plattform für KI-Agenten aus. Aktuell verarbeiten rund fünf Millionen dieser Agenten tägliche Kundenanfragen in über 70 Sprachen. Die Systeme wickeln dabei täglich ein Gesprächsvolumen von umgerechnet zweieinhalb Jahren ab.

Eine Demonstration zeigte einen autonomen Reiseagenten. Die KI griff im Hintergrund auf Datenbanken zu und bearbeitete parallele Buchungsprozesse. Nutzer authentifizieren sich für solche Abläufe direkt über Plattformen wie WhatsApp.

Verschiedene Partner integrieren diese Technologie bereits in ihren Alltag. Der Telekommunikationsanbieter BT nutzt die Agenten für Übersetzungen in Echtzeit, während die Plattform Masterclass virtuelle Ausbilder testet. Gleichzeitig entwickelt die griechische Regierung KI-gestützte Reiseberater für den Tourismus, und die Fluggesellschaft Lot Airlines plant ein modernes Reservierungssystem.

Stimmklone für erkrankte Menschen

ElevenLabs nutzt seine Technologie auch für einen medizinischen Anwendungsfall und stellt Menschen mit fortschreitendem Stimmverlust kostenlose Stimmklone zur Verfügung. Ziel dieses Programms ist die langfristige Unterstützung von einer Million betroffener Personen.

Bisher erhielten mehr als 10.000 Menschen ihre digitale Stimme zurück. Der Prozess kopiert dabei nicht nur den reinen Klang. Auch individuelle Eigenheiten wie ein regionaler Akzent, ein Lachen oder ein leichtes Stottern bleiben erhalten.

Ein Beispiel ist die ehemalige Lehrerin Irene Parin, die an der motorischen Nervenerkrankung MND leidet und ihre natürliche Sprache verlor. Durch den digitalen Stimmklon führt sie heute weiterhin ehrenamtlich Besuchergruppen durch die St. George's Chapel in Windsor.

Diese karitative Nutzung zeigt eine greifbare Ergänzung zum kommerziellen Einsatz der Sprachtechnologie.