Caramba in einem Podcast Studio

ElevenLabs Version 3 - Mega Update Tutorial!

Völlig neues TAG-System für Emotionen und natürliche Dialoge zwischen Personen.

FAQ | Andreas Becker, 09.06.25
Caramba in einem Podcast Studio
gpt-image-1 | All-AI.de

EINLEITUNG

Mit Version 3 hebt ElevenLabs seine KI-Sprachtechnologie auf ein völlig neues Niveau. Das Update bringt nicht nur das bislang ausgereifteste Sprachmodell des Anbieters mit, sondern auch Funktionen, auf die wir alle schon lange gewartet haben. Allen voran: endlich echte Audio Tags. Was vorher nur über Umwege oder mit viel Feingefühl möglich war, geht jetzt direkt, präzise und qualitativ hochwertig.

Wir haben für dieses Tutorial 40 der neuen Tags getestet und zeigen, welche davon besonders gut funktionieren – und wofür man sie im Alltag oder bei kreativen Projekten nutzen kann.

Außerdem werfen wir einen Blick auf die neue „Add Speaker“ Funktion, mit der sich nun deutlich natürlichere Dialoge zwischen mehreren Stimmen erzeugen lassen. Was früher gekünstelt oder abgehackt klang, wirkt mit V3 flüssig, dynamisch und deutlich authentischer.

Zum Abschluss liefern wir noch ein paar praxisnahe Tipps, wie man das volle Potenzial von ElevenLabs V3 ausschöpfen kann – egal ob für Content Creation, Hörbücher oder Voice-over-Projekte.

SETTINGS

Neu bei Elevenlabs

Der Einstieg in die neue Version 3 von ElevenLabs ist denkbar einfach. Nach dem Login genügt ein Klick auf den Reiter „Text to Speech“, und schon kann man bei der Modellauswahl statt der bisherigen Version 2 auf die neue Version 3 umschalten.

Dabei fallen direkt zwei Dinge auf. Aktuell läuft das neue Modell noch mit einem satten 80-Prozent-Rabatt. Das macht es ideal, um umfangreich zu testen, ohne sich finanziell zu verbrennen. Außerdem ist die Zahl der unterstützten Sprachen bei ElevenLabs massiv gestiegen. Wer also bisher auf Englisch oder vereinzelte Übersetzungen angewiesen war, hat jetzt ganz andere Möglichkeiten.

Quelle: Elevenlabs

Settings - jetzt einfacher!

Ein weiterer echter Fortschritt zeigt sich in den Einstellungen. Wo bisher fünf verschiedene Regler justiert werden mussten, kommt ElevenLabs V3 nun mit einem einzigen Schieberegler aus. Klingt simpel – ist aber ziemlich durchdacht.

Neutral (Standard): Erzeugt eine ausgewogene, natürliche Stimme. Ideal für realistische Dialoge oder sachliche Texte.

Kreativ: Bewegt man sich in Richtung „Creative“, wird die Stimme lebendiger, emotionaler und ausdrucksstärker. Perfekt für Kurzclips, TikToks oder kreative Projekte. Der Preis: gelegentlich leichte Halluzinationen in der Sprache.

Robust: Wer die Stimme lieber konsistent und diszipliniert halten will, schiebt den Regler Richtung „Robust“. Tags werden weniger stark umgesetzt, dafür klingt die Stimme durchgängig stabil – wie bei Version 2.

Die Auswahl sollte man vom Einsatz abhängig machen. Ein Hörbuch über 5 Stunden sollte robust und gleichbleibend sein. Ein 10-Sekunden TikTok-Clip sollte es natürlich kreativer sein.

AUSPROBIEREN

80 % oder 50 % Rabatt – oder beides?

Nur bis Monatsende gibt es das neue V3-Modell mit satten 80 % Rabatt – ganz automatisch! Selbst im kostenlosen Free-Plan kannst du damit fünfmal so viel generieren wie bisher.

Zusätzlich sicherst du dir über den folgenden Link 50 % Rabatt auf den Creator-Plan. Das bedeutet: 100.000 Tokens regulär, und durch den 80-%-Rabatt auf V3 bekommst du damit praktisch 500.000 Tokens für die neueste Version.

Hier gehts zu Elevenlabs (Affliatelink).

AUDIO TAGS

Audio Tags funktionieren und sind effizient

Neben der reinen Sprachqualität ist die Einführung der Audio Tags wohl die stärkste Verbesserung in ElevenLabs Version 3. Was vorher umständlich im Nachgang bearbeitet oder mit Tricks realisiert werden musste, geht jetzt direkt aus dem Textfeld heraus – präzise, flexibel und vor allem ohne Störgeräusche. Denn im Unterschied zu früher werden die Tags nicht mehr mitgesprochen, sondern wirken rein auf die Stimme oder ergänzen sie um Soundeffekte. Das spart Zeit und macht das ganze Tool deutlich produktiver.

Tag Kategorien

Die Tags sind in drei Kategorien aufgeteilt – jede mit einem eigenen Einsatzbereich. Insgesamt haben wir 40 getestete Tags auf unserer Webseite gesammelt, die besonders gut funktionieren.

Kategorie 1: Voice Tags – Emotion und Stil direkt aus dem Text

Mit diesen Tags steuert man, wie etwas gesagt wird. Ob flüsternd, weinend oder mit einem Lachen – die Voice Tags machen das Audio lebendig und menschlich.

[laughs], [laughs harder], [starts laughing], [wheezing], [whispers], [sighs], [exhales], [sarcastic], [curious], [excited], [crying], [snorts], [mischievously], [gasp], [giggles], [panicked], [tired], [shouting], [trembling], [serious], [robotically], [amazed]

Beispiel: [whispers] I never knew it could be this way, but I'm glad we're here.

Kategorie 2: Sound Effects – Geräusche mitten im Text

Mit diesen Tags fügt man Soundeffekte direkt ins Audio ein. Sie laufen parallel zur Stimme und wirken so, als würden sie direkt aus einer Studioaufnahme stammen.

[gunshot], [applause], [clapping], [explosion], [swallows], [gulps], [door slams], [rainfall], [distant echo], [heartbeat], [thunder]

Beispiel: [applause] Thank you all for coming tonight! [gunshot] What was that?

Kategorie 3: Special Tags – Der kreative Spielplatz

Diese Tags sind teils verspielt, teils experimentell – aber sie eröffnen völlig neue Möglichkeiten für Kreative.

[strong X accent], [sings], [woo], [fart], [asmr mode], [underwater], [echoes]

Beispiel 1: [German accent] Zat's life, my friend — you can't control everysing.

Beispiel 2: [sings] I'm walking on sunshine, whoa-oh!

Der Einsatz

Wie in den Beispielen gut zu sehen ist der Einsatz denkbar einfach. Einfach nur die Tags vor dem Satz in eckigen Klammern einfügen.

ADD SPEAKER - DIALOGE

Endlich stimmige Dialoge

Eine der auffälligsten Schwächen bei früheren ElevenLabs-Versionen war die Art, wie Dialoge umgesetzt wurden. Zwar konnte man mit verschiedenen Stimmen arbeiten, doch der Wechsel wirkte oft abrupt, künstlich und in manchen Fällen sogar störend. Mit Version 3 gehört das der Vergangenheit an.

Denn jetzt gibt es direkt in der Benutzeroberfläche die neue „+Add Speaker“ Funktion. Und die ist nicht nur einfach zu bedienen, sondern auch technisch ein echter Sprung nach vorn.

Funktionsweise

Einfach auf „Add – Speaker“ klicken, eine zweite Stimme auswählen – und das war’s. Der Wechsel erfolgt automatisch im Textfluss, ohne dass man etwas exportieren oder manuell bearbeiten müsste.

Das Besondere daran: Die Stimmen interagieren jetzt miteinander. Es ist nicht mehr bloß ein stures Hintereinandersprechen von verschiedenen Sprachclips. ElevenLabs V3 sorgt dafür, dass die Sprecher sich hörbar aufeinander beziehen – in Tonfall, Timing und Betonung. Genau das, was es braucht, um echte Gespräche glaubwürdig klingen zu lassen.

Einsatzgebiete? Unbegrenzt!

Ob Hörbücher, Podcast-Intros, Skripte für Kurzvideos oder einfach nur ein authentisch klingender Dialog für eine Präsentation – diese Funktion hebt sämtliche Szenarien auf ein neues Niveau.

Quelle: Elevenlabs

TIPPS & TRICKS

Tipps für Eleven 3

Version 3 von ElevenLabs bringt nicht nur neue Funktionen, sondern auch neue (alte) Spielregeln. Wer hier ein bisschen Zeit investiert, kann das volle Potenzial ausschöpfen und Ergebnisse erzeugen, die sich kaum noch von echten Stimmen unterscheiden lassen. Wir haben fünf praktische Tipps zusammengestellt, die besonders in der aktuellen Version einen großen Unterschied machen können.

Tipp 1: Satzzeichen bewusst einsetzen

In Version 3 haben Satzzeichen einen viel stärkeren Einfluss auf die Sprachmelodie als bisher. Wer also einfach nur runterschreibt, verschenkt Potenzial.

Beispiel: It was a very long day [sigh] … nobody listens anymore.

Tipp 2: Tags kombinieren für mehr Emotion

Man muss sich nicht mit einem Tag begnügen. Kombinierte Tags führen zu komplexeren Emotionen und bieten Raum für Nuancen, die bisher nur mit viel Handarbeit möglich waren.

Beispiel: [starts laughing] That was funny... [laughs harder] oh my god and this was even funnier!

Tipp 3: Stimme gezielt auswählen

Auch wenn das Modell inzwischen sehr viele Tags gut umsetzt: Die Auswahl der richtigen Stimme bleibt entscheidend. Eine ernste Sprecherstimme wird sich auch mit einem [giggles]-Tag eher zurückhalten. Eine verspielte Social-Media-Stimme hingegen reagiert sehr lebhaft.

Tipp 4: Emotionaler Kontext zählt doppelt

Ein interessanter Nebeneffekt von Version 3: Der emotionale Kontext im Satz selbst wird stärker berücksichtigt. Das bedeutet, selbst ohne Tags lassen sich emotionale Reaktionen hervorrufen – wenn man die passenden Wörter verwendet.

Tipp 5: Experimentieren lohnt sich

Es klingt abgedroschen, ist aber in Version 3 so wahr wie nie: Probiert aus, testet Grenzen und spielt mit Text, Stimme und Tags. Sobald man den richtigen Mix gefunden hat, bekommt man Ergebnisse, die kaum mehr von echten Aufnahmen zu unterscheiden sind.

BEWERTUNG (SHORT)

Der Start ist gemacht

Auch wenn sich Version 3 schon jetzt wie ein rundes Gesamtpaket anfühlt – offiziell befindet sich das neue Sprachmodell noch in der Alpha-Phase. Und genau das macht den aktuellen Stand umso beeindruckender: Die Qualität ist bereits spürbar besser als bei der ohnehin schon starken Version 2, und alle neuen Funktionen halten, was sie versprechen.

Man muss aber auch ehrlicherweise erwähnen, dass deutsche Stimmen noch nicht so kontant funktionieren wie die Englischen. Allerdings soll in den nächsten Wochen das professionelle Voice-Cloning ein Update bekommen für die Version 3 und spätestens dann werden wir auch sehr gute deutsche Stimmen sehen.

Wir sind jedenfalls sehr angetan von den neuen Funktionen und haben uns diese schon lange gewünscht.

Profilbild Caramba

UNSER ZIEL

Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen!

Teile unsere Beiträge

Folge uns auf Social Media

Keine KI-News mehr verpassen und direkt kommentieren!

Unterstütze uns direkt

Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support!

FAQ

Frage 1: Was ist ElevenLabs Version 3 (Alpha)?
Eleven v3 (Alpha) ist das neueste, ausdrucksstärkste Text‑to‑Speech‑Modell von ElevenLabs. Es erzeugt ausgesprochen natürlich klingende Sprache mit hoher Emotionsvielfalt, mehrsprachiger Unterstützung und präziser Steuerung durch Audio‑Tags.
Frage 2: Welche neuen Funktionen bietet v3 im Vergleich zu älteren Modellen?
Version 3 bringt drei Haupt-Features: 1. Inline-Audio-Tags für emotionale Nuancen und Soundeffekte. 2. Dialog‑Modus für natürlich klingende Mehrsprecher‑Szenen. 3. Unterstützung von 70+ Sprachen.
Frage 3: Wie funktionieren die Audio‑Tags und was kann man steuern?
Audio‑Tags werden direkt im Text mit eckigen Klammern eingetragen, z. B. `[whispers]`, `[laughs]`, `[applause]`. Sie beeinflussen Tonfall, Emotion, Pausen oder bringen Soundeffekte ins Audio.
Frage 4: Ist die Dialog‑Funktion mit mehreren Sprechern integriert?
Ja. Im normalen UI wird mit „Text to Dialogue“ ein automatischer Sprecherwechsel erzeugt, der Prosodie, Timing und Kontext beachtet – so klingt es wie echtes Gespräch.
Frage 5: Welche Sprachen werden von v3 unterstützt?
Über 70 Sprachen werden unterstützt – von Afrikaans über Deutsch bis Zulu.
Frage 6: Warum ist Version 3 noch nicht für den Echtzeit‑Einsatz geeignet?
Weil v3 noch in der Alpha-Phase ist. Es benötigt mehr Prompt‑Feinjustierung und hat höhere Latenz. Für Echtzeit‑Anwendungen wie Chat Bots empfiehlt Eleven v2.5 Turbo/Flash.
Frage 7: Ist Eleven v3 über die API verfügbar?
Derzeit nur mit dem UI. Die Public API für v3 kommt noch. Wer frühzeitig Zugriff will, kann sich an den Sales‑Bereich wenden.
Frage 8: Kosten & Rabatte – wie ist der aktuelle Stand?
UI‑Nutzer zahlen bis zum Ende Juni 2025 80 % weniger pro Zeichen für v3. Nach Ablauf gelten wieder die Preise der Multilingual v2.
Frage 9: Reicht der kostenlose Plan für v3‑Experimente aus?
Ja – ihr bekommt 10.000 Zeichen kostenlos pro Monat, durch den 80‑%‑Rabatt sind effektiv rund 50.000 Zeichen nutzbar.
Frage 10: Für welche Anwendungsfälle eignet sich Version 3 besonders?
v3 ist ideal für: Emotionale Audio‑Narrationen (Hörbücher, Storytelling) Dialoge mit mehreren Sprechern (Podcasts, Hörspiele) Charakterstarker Output mit Soundeffekten (z. B. Film- oder Game-Audio). Für Chatbots in Echtzeit bleibt v2.5 weiterhin empfohlen.

QUELLEN