ElevenLabs bringt endlich KI Avatare

Aus Text und Stimme entstehen nun lippensynchrone Charaktere in nur einem Klick. Das umständliche Schneiden entfällt komplett.

Andreas Becker11.06.26 GPT-Images-2.0

Kurzfassung Quellen

ElevenLabs hat eine neue Funktion vorgestellt, die aus Text und Stimme lippensynchrone Avatar-Videos generiert.
Nutzer können aus Vorlagen wählen oder mit eigenen Fotos eine konsistente digitale Identität erschaffen.
Der bisher nötige Umweg über verschiedene Videotools entfällt, da alles in einem Arbeitsschritt berechnet wird.
Die Avatare lassen sich zudem automatisieren, um massenhaft Videos in verschiedenen Sprachen zu produzieren.

ElevenLabs integriert neue Avatar-Funktionen in seine Plattform ElevenCreative. Nutzer können aus einem Text, einer KI-Stimme und einem visuellen Avatar lippensynchrone Videos generieren. Der bisherige Umweg über verschiedene separate Tools entfällt.

Bibliothek und eigene Referenzbilder

Die Plattform bietet zum Start eine Bibliothek mit vorgefertigten Gesichtern, die jeweils mit einer Standardstimme verknüpft sind. Nutzer können diese Identitäten direkt verwenden oder die zugeordnete Stimme anpassen. Alternativ lassen sich eigene Avatare erstellen.

Dafür laden Nutzer mehrere Referenzbilder einer Person oder eines Charakters aus verschiedenen Blickwinkeln hoch. Das System errechnet daraus eine konsistente visuelle Identität. Laut ElevenLabs verhindern mehrere Ausgangsbilder optische Abweichungen in zukünftigen Videos.

Neben menschlichen Gesichtern unterstützt die Funktion auch fiktive Charaktere und Tiere. Für die Sprachausgabe greift ElevenLabs auf seine Text-to-Speech-Technik zurück. Das schließt die Nutzung individuell geklonter Stimmen ein.

Es ist also möglich, seine eigene, geklonte Stimme mit einem Alientier zu kreuzen und daraus Videos zu erstellen.

Feste Identitäten in neuen Stilen

Ein zentrales Element der neuen Funktion sind die sogenannten Stile. Wurde ein Avatar einmal generiert, speichert ElevenCreative diesen als festes Asset ab. Aus dieser Basis lassen sich anschließend Varianten für unterschiedliche Szenarien ableiten.

Nutzer ändern so Kameraeinstellungen, Kleidung, Beleuchtung oder den Hintergrund, ohne den Charakter neu berechnen zu müssen. Die visuelle Identität bleibt über beliebig viele Videos hinweg stabil.

Quelle: ElevenLabs

Automatisierte Videoproduktion

Bisher erforderte die Produktion von lippensynchronen Videos in ElevenCreative fünf separate Schritte, inklusive der manuellen Auswahl spezifischer Lip-Sync-Modelle. Jetzt tippen Nutzer ein Skript ein, wählen Stimme sowie Avatar aus, und Elevenlabs erzeugt das fertige Video. Die Software-Plattform bestimmt das optimale Modell im Hintergrund selbst.

Das Unternehmen richtet sich mit der Funktion an Kursleiter, Content-Ersteller und Marketer. Sie sollen eine permanente Kamerapräsenz aufbauen, ohne selbst drehen zu müssen. Für die Massenproduktion lassen sich die Avatare in die »Flows«-Funktion einbinden.

Über einen neuen Avatar-Node konfigurieren Nutzer dort automatisierte Abläufe. Ein gespeicherter Charakter kann auf diese Weise in einem Durchgang für Dutzende Video-Varianten mit unterschiedlichen Sprachen oder Werbetexten genutzt werden.

Quelle: ElevenLabs

Verfügbarkeit und Kosten

Das Avatar-Feature steht in allen kostenpflichtigen Tarifen zur Verfügung. Die Abrechnung läuft über das bestehende Credit-System der Bild- und Videomodelle. Die exakten Kosten pro Clip richten sich nach der gewählten Auflösung und natürlich Länge.

Eine API-Schnittstelle existiert zur Einführung noch nicht, ist aber in Planung für ein späteres Update.