ElevenLabs Version 3 - Mega Update Tutorial!
Völlig neues TAG-System für Emotionen und natürliche Dialoge zwischen Personen.

gpt-image-1 | All-AI.de
EINLEITUNG
Mit Version 3 hebt ElevenLabs seine KI-Sprachtechnologie auf ein völlig neues Niveau. Das Update bringt nicht nur das bislang ausgereifteste Sprachmodell des Anbieters mit, sondern auch Funktionen, auf die wir alle schon lange gewartet haben. Allen voran: endlich echte Audio Tags. Was vorher nur über Umwege oder mit viel Feingefühl möglich war, geht jetzt direkt, präzise und qualitativ hochwertig.
Wir haben für dieses Tutorial 40 der neuen Tags getestet und zeigen, welche davon besonders gut funktionieren – und wofür man sie im Alltag oder bei kreativen Projekten nutzen kann.
Außerdem werfen wir einen Blick auf die neue „Add Speaker“ Funktion, mit der sich nun deutlich natürlichere Dialoge zwischen mehreren Stimmen erzeugen lassen. Was früher gekünstelt oder abgehackt klang, wirkt mit V3 flüssig, dynamisch und deutlich authentischer.
Zum Abschluss liefern wir noch ein paar praxisnahe Tipps, wie man das volle Potenzial von ElevenLabs V3 ausschöpfen kann – egal ob für Content Creation, Hörbücher oder Voice-over-Projekte.
SETTINGS
Neu bei Elevenlabs
Der Einstieg in die neue Version 3 von ElevenLabs ist denkbar einfach. Nach dem Login genügt ein Klick auf den Reiter „Text to Speech“, und schon kann man bei der Modellauswahl statt der bisherigen Version 2 auf die neue Version 3 umschalten.
Dabei fallen direkt zwei Dinge auf. Aktuell läuft das neue Modell noch mit einem satten 80-Prozent-Rabatt. Das macht es ideal, um umfangreich zu testen, ohne sich finanziell zu verbrennen. Außerdem ist die Zahl der unterstützten Sprachen bei ElevenLabs massiv gestiegen. Wer also bisher auf Englisch oder vereinzelte Übersetzungen angewiesen war, hat jetzt ganz andere Möglichkeiten.
Quelle: Elevenlabs
Settings - jetzt einfacher!
Ein weiterer echter Fortschritt zeigt sich in den Einstellungen. Wo bisher fünf verschiedene Regler justiert werden mussten, kommt ElevenLabs V3 nun mit einem einzigen Schieberegler aus. Klingt simpel – ist aber ziemlich durchdacht.
Neutral (Standard): Erzeugt eine ausgewogene, natürliche Stimme. Ideal für realistische Dialoge oder sachliche Texte.
Kreativ: Bewegt man sich in Richtung „Creative“, wird die Stimme lebendiger, emotionaler und ausdrucksstärker. Perfekt für Kurzclips, TikToks oder kreative Projekte. Der Preis: gelegentlich leichte Halluzinationen in der Sprache.
Robust: Wer die Stimme lieber konsistent und diszipliniert halten will, schiebt den Regler Richtung „Robust“. Tags werden weniger stark umgesetzt, dafür klingt die Stimme durchgängig stabil – wie bei Version 2.
Die Auswahl sollte man vom Einsatz abhängig machen. Ein Hörbuch über 5 Stunden sollte robust und gleichbleibend sein. Ein 10-Sekunden TikTok-Clip sollte es natürlich kreativer sein.
AUSPROBIEREN
80 % oder 50 % Rabatt – oder beides?
Nur bis Monatsende gibt es das neue V3-Modell mit satten 80 % Rabatt – ganz automatisch! Selbst im kostenlosen Free-Plan kannst du damit fünfmal so viel generieren wie bisher.
Zusätzlich sicherst du dir über den folgenden Link 50 % Rabatt auf den Creator-Plan. Das bedeutet: 100.000 Tokens regulär, und durch den 80-%-Rabatt auf V3 bekommst du damit praktisch 500.000 Tokens für die neueste Version.
AUDIO TAGS
Audio Tags funktionieren und sind effizient
Neben der reinen Sprachqualität ist die Einführung der Audio Tags wohl die stärkste Verbesserung in ElevenLabs Version 3. Was vorher umständlich im Nachgang bearbeitet oder mit Tricks realisiert werden musste, geht jetzt direkt aus dem Textfeld heraus – präzise, flexibel und vor allem ohne Störgeräusche. Denn im Unterschied zu früher werden die Tags nicht mehr mitgesprochen, sondern wirken rein auf die Stimme oder ergänzen sie um Soundeffekte. Das spart Zeit und macht das ganze Tool deutlich produktiver.
Tag Kategorien
Die Tags sind in drei Kategorien aufgeteilt – jede mit einem eigenen Einsatzbereich. Insgesamt haben wir 40 getestete Tags auf unserer Webseite gesammelt, die besonders gut funktionieren.
Kategorie 1: Voice Tags – Emotion und Stil direkt aus dem Text
Mit diesen Tags steuert man, wie etwas gesagt wird. Ob flüsternd, weinend oder mit einem Lachen – die Voice Tags machen das Audio lebendig und menschlich.
[laughs], [laughs harder], [starts laughing], [wheezing], [whispers], [sighs], [exhales], [sarcastic], [curious], [excited], [crying], [snorts], [mischievously], [gasp], [giggles], [panicked], [tired], [shouting], [trembling], [serious], [robotically], [amazed]
Beispiel: [whispers] I never knew it could be this way, but I'm glad we're here.
Kategorie 2: Sound Effects – Geräusche mitten im Text
Mit diesen Tags fügt man Soundeffekte direkt ins Audio ein. Sie laufen parallel zur Stimme und wirken so, als würden sie direkt aus einer Studioaufnahme stammen.
[gunshot], [applause], [clapping], [explosion], [swallows], [gulps], [door slams], [rainfall], [distant echo], [heartbeat], [thunder]
Beispiel: [applause] Thank you all for coming tonight! [gunshot] What was that?
Kategorie 3: Special Tags – Der kreative Spielplatz
Diese Tags sind teils verspielt, teils experimentell – aber sie eröffnen völlig neue Möglichkeiten für Kreative.
[strong X accent], [sings], [woo], [fart], [asmr mode], [underwater], [echoes]
Beispiel 1: [German accent] Zat's life, my friend — you can't control everysing.
Beispiel 2: [sings] I'm walking on sunshine, whoa-oh!
Der Einsatz
Wie in den Beispielen gut zu sehen ist der Einsatz denkbar einfach. Einfach nur die Tags vor dem Satz in eckigen Klammern einfügen.
ADD SPEAKER - DIALOGE
Endlich stimmige Dialoge
Eine der auffälligsten Schwächen bei früheren ElevenLabs-Versionen war die Art, wie Dialoge umgesetzt wurden. Zwar konnte man mit verschiedenen Stimmen arbeiten, doch der Wechsel wirkte oft abrupt, künstlich und in manchen Fällen sogar störend. Mit Version 3 gehört das der Vergangenheit an.
Denn jetzt gibt es direkt in der Benutzeroberfläche die neue „+Add Speaker“ Funktion. Und die ist nicht nur einfach zu bedienen, sondern auch technisch ein echter Sprung nach vorn.
Funktionsweise
Einfach auf „Add – Speaker“ klicken, eine zweite Stimme auswählen – und das war’s. Der Wechsel erfolgt automatisch im Textfluss, ohne dass man etwas exportieren oder manuell bearbeiten müsste.
Das Besondere daran: Die Stimmen interagieren jetzt miteinander. Es ist nicht mehr bloß ein stures Hintereinandersprechen von verschiedenen Sprachclips. ElevenLabs V3 sorgt dafür, dass die Sprecher sich hörbar aufeinander beziehen – in Tonfall, Timing und Betonung. Genau das, was es braucht, um echte Gespräche glaubwürdig klingen zu lassen.
Einsatzgebiete? Unbegrenzt!
Ob Hörbücher, Podcast-Intros, Skripte für Kurzvideos oder einfach nur ein authentisch klingender Dialog für eine Präsentation – diese Funktion hebt sämtliche Szenarien auf ein neues Niveau.
Quelle: Elevenlabs
TIPPS & TRICKS
Tipps für Eleven 3
Version 3 von ElevenLabs bringt nicht nur neue Funktionen, sondern auch neue (alte) Spielregeln. Wer hier ein bisschen Zeit investiert, kann das volle Potenzial ausschöpfen und Ergebnisse erzeugen, die sich kaum noch von echten Stimmen unterscheiden lassen. Wir haben fünf praktische Tipps zusammengestellt, die besonders in der aktuellen Version einen großen Unterschied machen können.
Tipp 1: Satzzeichen bewusst einsetzen
In Version 3 haben Satzzeichen einen viel stärkeren Einfluss auf die Sprachmelodie als bisher. Wer also einfach nur runterschreibt, verschenkt Potenzial.
Beispiel: It was a very long day [sigh] … nobody listens anymore.
Tipp 2: Tags kombinieren für mehr Emotion
Man muss sich nicht mit einem Tag begnügen. Kombinierte Tags führen zu komplexeren Emotionen und bieten Raum für Nuancen, die bisher nur mit viel Handarbeit möglich waren.
Beispiel: [starts laughing] That was funny... [laughs harder] oh my god and this was even funnier!
Tipp 3: Stimme gezielt auswählen
Auch wenn das Modell inzwischen sehr viele Tags gut umsetzt: Die Auswahl der richtigen Stimme bleibt entscheidend. Eine ernste Sprecherstimme wird sich auch mit einem [giggles]-Tag eher zurückhalten. Eine verspielte Social-Media-Stimme hingegen reagiert sehr lebhaft.
Tipp 4: Emotionaler Kontext zählt doppelt
Ein interessanter Nebeneffekt von Version 3: Der emotionale Kontext im Satz selbst wird stärker berücksichtigt. Das bedeutet, selbst ohne Tags lassen sich emotionale Reaktionen hervorrufen – wenn man die passenden Wörter verwendet.
Tipp 5: Experimentieren lohnt sich
Es klingt abgedroschen, ist aber in Version 3 so wahr wie nie: Probiert aus, testet Grenzen und spielt mit Text, Stimme und Tags. Sobald man den richtigen Mix gefunden hat, bekommt man Ergebnisse, die kaum mehr von echten Aufnahmen zu unterscheiden sind.
BEWERTUNG (SHORT)
Der Start ist gemacht
Auch wenn sich Version 3 schon jetzt wie ein rundes Gesamtpaket anfühlt – offiziell befindet sich das neue Sprachmodell noch in der Alpha-Phase. Und genau das macht den aktuellen Stand umso beeindruckender: Die Qualität ist bereits spürbar besser als bei der ohnehin schon starken Version 2, und alle neuen Funktionen halten, was sie versprechen.
Man muss aber auch ehrlicherweise erwähnen, dass deutsche Stimmen noch nicht so kontant funktionieren wie die Englischen. Allerdings soll in den nächsten Wochen das professionelle Voice-Cloning ein Update bekommen für die Version 3 und spätestens dann werden wir auch sehr gute deutsche Stimmen sehen.
Wir sind jedenfalls sehr angetan von den neuen Funktionen und haben uns diese schon lange gewünscht.
UNSER ZIEL
Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen!
Teile unsere Beiträge
Folge uns auf Social Media
Keine KI-News mehr verpassen und direkt kommentieren!
Unterstütze uns direkt
Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support!