ELEVENLABS 2025 - 11 Tipps, Emotionen, einzigartige Stimmen

11 geniale Tipps um Emotionen zu erzeugen und die Stimme einzigartig zu machen. Dazu Geld sparen und eine Custom GPT Lösung.

Elevenlabs - Teil 2/5

Startseite | Caramba, 15.11.24
Elevenlabs - 11 Tipps
Flux Schnell | All-AI.de

Info + Inhaltsverzeichnis

Teil 2

Im ersten Teil habt ihr die Grundlagen von Elevenlabs kennengelernt. Jetzt wollen wir das volle Potenzial ausschöpfen. In diesem Abschnitt zeige ich euch, wie man präziser promptet, teile geheime Tipps, die kaum jemand kennt, und stelle eine Custom-GPT-Lösung vor, die automatisch Emotionen in eure Texte einfügt – speziell optimiert für Elevenlabs.

* Im Free-Plan - 10.000 Credits / Monat gratis - Affliate Link

Inhaltsverzeichnis:

9 - Prompting in Elevenlabs

Allgemeines Problem von KI

Bisher mussten wir darauf vertrauen, dass Elevenlabs den Text richtig interpretiert und die gewünschten Emotionen sowie Betonungen setzt. In Szenen, in denen Begriffe wie „Stadion“ und „Jubel“ vorkommen, versteht die KI meist intuitiv die Stimmung und passt die Tonlage entsprechend an.

Fehlt jedoch ein solcher Kontext, steht die KI oft vor einem Rätsel. Ein Beispiel: Schreibt man „Maria redet mit Peter in einem Haus“, wird Elevenlabs dies neutral interpretieren, da das Wortumfeld keine spezifische Emotion nahelegt. Ohne genauere Angaben könnte die KI dann entweder einen neutralen Ton wählen oder nach eigenem Ermessen die Szene füllen.

Beispiele

1. "Maria redet mit Peter in einem Haus.“ – neutrale Aussage ohne emotionale Anhaltspunkte.

2. "Maria flüstert leise zu Peter in einem unheimlichen, dunklen Haus.“ – durch das zusätzliche Adjektiv „unheimlich“ und das Verb „flüstert“ wird eine spezifische Stimmung geschaffen.

3. "Maria redet mit Peter in einem Haus", she whispered in an eerie environment.“ – durch die Anmerkung „flüsterte sie“ wird eine weitere, emotionale Dimension hinzugefügt.

Für gezieltere Stimmungen, Emotionen oder Pausen im Text lässt sich eine spezielle Syntax nutzen, die Elevenlabs hilft, den Kontext klar zu erfassen und die richtige Intonation zu wählen.

10 - Syntax in Elevenlabs

Syntax: Welche Möglichkeiten bietet Elevenlabs?

Hier zeigt sich leider nur ein begrenztes Spektrum an Optionen – vieles läuft auf das Prinzip „Versuch und Irrtum“ hinaus. Deshalb sind Erfahrungswerte umso wichtiger, um grundlegende Fehler zu vermeiden. Manche Tipps und Tricks kann man zudem kaum selbst entdecken und muss sie einfach gehört haben.

Pausen einfügen

Code: <break time="1.5s" />

Beispiel: "Gebe mir eine Sekunde um darüber nachzudenken." <break time="1.3s" /> "Ja, das würde funktionieren."

Alternativen zum einfügen von Pausen

Code: - Code: -- Code: ...

Beispiel: "Es - ist - spät geworden."

Beispiel: "Ich... ja, Ich denke schon..."

fas fa-info-circle

Anmerkung 1: Maximal 3 Sekunden für eine natürlich klingende Pause nutzen.

Anmerkung 2: Nicht übertreiben – zu viele Pausen können zu Instabilitäten führen.

Emotionen einfügen

Zum Einfügen von Emotionen gibt es mehrere Möglichkeiten. Falls es passt, können sie direkt im Text integriert werden. Alternativ lassen sich Emotionen oder Beschreibungen vor oder nach dem eigentlichen Text einfügen, wobei diese Abschnitte später manuell entfernt werden müssen.

Beispiel: "Bist du dir wirklich sicher?"

Beispiel: "Bist du dir wirklich sicher?" he said, confused.

Beispiel: "Das ist so lustig"

Beispiel: he said laughing, "das ist so lustig."

fas fa-info-circle

Anmerkung 1: Später folgt eine Custom-GPT-Lösung, die Emotionen automatisch hinzufügt.

Anmerkung 2: Am Ende von Teil gibt es eine Übersicht bewährter Emotionen, die sich gut einsetzen lassen.

11 - Unsere Erfahrung - Hinweise

Welche Pausen sind die besten?

Am besten bewährt sich eine konkrete Zeitangabe in Sekunden – sie ist präzise und erzeugt zuverlässige Ergebnisse. Der Bindestrich („-“) oder Doppelbindestrich („--“) funktioniert meist besser als das klassische („...“). Trotzdem nutze ich oft die drei Punkte, weil sie intuitiv am einfachsten einzusetzen sind. Wenn es dann doch nicht passt, kann man den Satz problemlos noch einmal generieren.

Wo Emotionen einfügen

Bei deutschen Sätzen kombiniert mit englischen Emotionen funktioniert es am besten, die Emotionen am Satzende einzufügen. So werden Verwechslungen zwischen deutscher Sprache und englischem Akzent seltener. Zudem empfiehlt es sich, die Emotionen konsistent entweder immer am Anfang oder immer am Ende zu setzen – das erleichtert das spätere Rausschneiden erheblich.

Deutsche vs. Englische Syntax

Warum also nicht einfach deutsche Emotionen verwenden? Die Erfahrung zeigt, dass englische Emotionsbeschreibungen hinter dem Satz deutlich besser funktionieren als deutsche. Oft ignoriert das Modell sogar deutschsprachige Angaben. Am Ende bleibt es ein englisches Sprachmodell. Am Ende von Teil 2 haben wir daher eine Übersicht mit gut funktionierenden englischen Emotionen übersichtlich dargestellt.

Nachteile

Der offensichtlichste Nachteil: Die gezielte Arbeit mit Pausen und Emotionen kostet Zeit. Daher sollte man vorab entscheiden, wie wichtig eine Stelle im Text wirklich ist.

Hinzu kommt, dass zusätzliche Emotionen später oft wieder entfernt werden müssen. Auch das kostet Zeit – und verursacht zusätzliche Kosten, da die Emotionen voll berechnet werden, selbst wenn sie später rausgeschnitten werden.

Nachteile 2

Emotionen als „Syntax“ in der deutschen Sprache funktionieren nicht annähernd so gut wie im Englischen, selbst wenn man englische Ausdrücke verwendet, um Stimmung zu erzeugen. Manchmal wirkt es dabei besser, manchmal schlechter – das hängt von mehreren Faktoren ab. So gibt es Stimmen oder Charaktere, die Emotionen besser transportieren als andere. Besonders bei monoton aufgenommenen Stimmen ist es oft schwierig, eine gewünschte Emotion klar zu vermitteln.

Wenn beispielsweise eine Stimme über längere Zeit langsam gesprochen wird, genügt ein einfaches „he said fastly“ nicht, um ein überzeugendes Ergebnis zu erzielen. Es ist daher meist ratsam, eine Stimme zu wählen, die zur gewünschten emotionalen Ausdrucksstärke passt.

12 - Tipp 1 - Kostenlos Text generieren

„2x Free Regenerations“ – Kostenlos nochmal generieren

Da Elevenlabs KI-basiert ist, variiert jede Generierung minimal von der vorherigen, selbst wenn die Einstellungen gleich bleiben. Meistens liefern die Standardeinstellungen direkt ein gutes Ergebnis – jedoch nicht immer.

Nach jeder Generierung erscheint der Button „Regenerate Speech“. Fährt man mit der Maus darüber, wird angezeigt, dass derselbe Text zweimal kostenlos neu generiert werden kann. Falls das Ergebnis also nicht passt, ist es sinnvoll, diesen Button direkt zu nutzen.

Tipp 2 - Keine Abkürzungen

Alles ausschreiben!

Gewöhnt euch an, Abkürzungen immer auszuschreiben – das gilt für Wörter wie „usw.“ genauso wie für Zahlen. Zahlen können leicht zu Missverständnissen führen: „87“ könnte zum Beispiel als „8 - 7“ oder „siebenundachtzig“ vorgelesen werden. Besser ist es, direkt „Acht - Sieben“ oder „siebenundachtzig“ zu schreiben. Auch bei Jahreszahlen und großen Zahlen vermeidet ihr so oft Probleme und spart euch erneutes Generieren.

Beispiel: "Die Firma XY GmbH plant, im Q3 und Q4 des Geschäftsjahres 2024 zusätzlich 1,75 Mio. € in die F&E-Abteilung zu investieren."

Beispiel: "Die Firma X GmbH plant, im dritten und vierten Quartal des Geschäftsjahres zweitausendvierundzwanzig zusätzlich eine Million siebenhundertfünfzigtausend Euro in die Forschungs- und Entwicklungsabteilung zu investieren."

Tipp 3 - Ein Wort betonen

Ein bestimmtes Wort betonen

Standardmäßig betont Elevenlabs Wörter passend zum Kontext. Wenn jedoch ein bestimmtes Wort besonders betont werden soll – sei es ein weniger offensichtliches oder einfach eines, das ihr hervorheben möchtet – dann schreibt das Wort einfach in GROßBUCHSTABEN. So wird die Betonung verstärkt und gezielt umgesetzt.

Beispiel: "Der HUND hat Mist gebaut".

Beispiel: "Der Hund hat MIST gebaut".

Tipp 4 - Geschwindigkeit anpassen

Die Geschwindigkeit der Sprache anpassen

Möchtet ihr ein Intro schneller oder eine Szene besonders langsam sprechen lassen – und das alles mit der gleichen Stimme? Das lässt sich ganz einfach über eine präzise Beschreibung steuern.

Beispiel: "Er wandert gemütlich den Berg hinauf." he said slowly.

Beispiel: "Er wandert gemütlich den Berg hinauf." he said fastly.

Hinweis

Das Beispiel zeigt gut, wie die KI den Kontext erfasst und den Text entsprechend vorliest. Gleichzeitig wird deutlich, wie sich der Einfluss einer zusätzlichen Anweisung im zweiten Audio-File bemerkbar macht.

„Schnell“ und „gemütlich“ passen eigentlich nicht zusammen, dennoch erkennt man, wie der zweite Text anders betont wird als der erste. Damit sich das Ergebnis gut anhört, sollte der Text entsprechend angepasst sein. Ein passender Satz wäre etwa: „Er geht schnell den Berg hinauf.“ he said fastly.

Tipp 5 - Satzzeichen

Satzzeichen sind Pflicht

Satzzeichen sowie Groß- und Kleinschreibung haben einen erheblichen Einfluss auf die Generierung. Selbst wenn man dreimal dasselbe schreibt, sind die Unterschiede in der Ausgabe oft enorm.

Beispiel: ich kann es nicht glauben, wir haben es geschafft

Beispiel: "Ich kann es nicht glauben wir haben es geschafft."

Beispiel: "Ich kann es nicht GLAUBEN, wir haben es geschafft.

Tipp 6 - Mehr Satzzeichen

Satzzeichen? Mehr Satzzeichen!

Mehr ist immer besser? Nicht unbedingt. Doch mit clever gesetzten Satzzeichen lässt sich die Ausgabe oft spürbar beeinflussen – und zwar im positiven Sinne, wenn man weiß, wie es geht.

Beispiel: "Hallo? Kannst du mich hören?"

Beispiel: "Hallo?... Kannst du mich hören?"

Beispiel: "Hallo!!!??? Kannst du mich hören?!?!"

Tipp 7 - Kontext is King

KI braucht Kontext

Niemand kann Gedanken lesen – und das gilt auch für KIs. Je mehr Kontext ihr gebt, desto besser und präziser wird die Antwort. Das Prinzip gilt nicht nur bei Elevenlabs, sondern ebenso bei anderen KIs wie ChatGPT, Flux und Co.

Beispiel: "Ich bin mir da überhaupt nicht sicher..." he muttered under his Breath, his words shaky and unsure.

Beispiel: "Ich kann es nicht glauben, WIR haben es getan!" she exclaimed, her voice bubbling with enthusiasm.

Tipp 8 - Die richtige Stimme

Die richtige Stimme für den Anwendungsfall wählen

Für jedes Projekt gibt es Stimmen, die besser oder schlechter passen. Wer auf TikTok Unterhaltung bieten möchte, sollte keine sanfte „Meditationsstimme“ wählen – und umgekehrt ist eine energiegeladene Entertainer-Stimme für entspannende Hörspiele ungeeignet. Zwar kann man mit etwas Glück eine Stimme finden, die halbwegs funktioniert, doch meistens klingt es einfach unnatürlich und unpassend.

Beispiel: "In der letzten Sekunde, Eins zu Null für Deutschland! WIR sind WELTMEISTER!!!" he said quickly and enthusiastically.

Tipp 9 - Speech to Speech

Speech-to-Speech für Emotionen

Anstatt Emotionen mühsam über Texteingaben einzufügen, könnt ihr auch einfach ein günstiges Mikrofon nutzen und die gewünschte Betonung und Geschwindigkeit selbst aufnehmen. Ladet die Audiodatei dann hoch und wählt eine beliebige Stimme. Die KI übernimmt automatisch Tonart, Betonung und Geschwindigkeit eurer Aufnahme und passt diese an die gewählte Stimme an.

Beispiel: "hallo dass ist ein intro und ich heiße euch herzlich willkommen."

Beispiel: "Der selbe Text, aber über Speech to Speech mit einem zusätzlichen Audiofile, von mir eingesprochen."

Beispiel: "Der selbe Text, aber über Speech to Speech mit einem zusätzlichen Audiofile, von mir eingesprochen."

Beispiel von Tipp 8 mit Sprache zu Sprache: "In der letzten Sekunde, Eins zu Null für Deutschland! WIR sind WELTMEISTER!!!"

Tipp 11 - Einzigartige Stimmen

Elevenlabs bietet mit den Standardeinstellungen gut klingende Sprachgenerierungen, die allerdings auch viele andere Nutzer verwenden. Wer also eine wirklich einzigartige Stimme schaffen möchte, muss selbst aktiv werden.

Möglichkeit 1: Nachbearbeitung für alle Sprachen

Ein simpler Weg, die generierten Audiodateien einzigartiger zu gestalten, ist die Nachbearbeitung in einem Audioprogramm. Anstatt die oft unzuverlässigen Einstellungs-Slider zu nutzen, könnt ihr den Sound durch einen Kompressor und/oder Equalizer leicht modifizieren. Mit einmal angelegten Presets ist der Aufwand gering – ein Knopfdruck, speichern, und schon klingt die Stimme einzigartig.

Möglichkeit 2: Voice Design

Elevenlabs bietet mittlerweile ein erweitertes „Voice Design“, mit dem ihr Stimmen über eine Textbeschreibung erstellen könnt. Es braucht vielleicht 3–4 Versuche, bis die Wunschstimme gefunden ist, aber das Ergebnis bleibt einzigartig. Selbst bei identischen Textbeschreibungen und Einstellungen generiert das System immer wieder leicht unterschiedliche Stimmen – eine hervorragende Möglichkeit, kreativ zu werden.

Möglichkeit3: Voice Cloning

Wer seine eigene Stimme verwenden möchte, kann diese hochladen und klonen lassen. So bekommt ihr eine wirklich einzigartige Stimme mit eurem persönlichen Touch. Aber dazu mehr in Teil 3.

"A very high-pitched, slightly trembling voice that sounds quick and squeaky, with a soft, squealing tone, resembling a tiny, excited mouse."

"A drunken Pirate with A deep, gravelly voice with a rough, slurred tone, carrying a heavy, raspy quality that stumbles over words, punctuated by hearty laughter and the occasional hiccup, like an old, drunken pirate who's spent years at sea."

13 - Custom GPT - Emotionen

EDIT: Der Abschnitt und die CustomGPT wird überarbeitet...

Faul und trotzdem gute Ergebnisse?

Wer viele Texte generiert, sucht immer nach Wegen zur Optimierung. Am Ende haben wir uns eine eigene Custom GPT für unsere Elevenlabs-Texte erstellt. Sie ist sicher nicht perfekt, aber einfach und clever aufgebaut.

Funktionsweise

Zuerst analysiert die Custom GPT den gesamten Text und nutzt das leistungsstarke ChatGPT-4o-Modell, um mehr Kontext und Zusammenhänge zu erkennen, als Elevenlabs allein erfassen könnte.

Anschließend wählt die GPT automatisch passende englische Emotionswörter aus einem festgelegten Pool aus, die gut mit Elevenlabs harmonieren, und fügt sie am Ende des Textes hinzu, ohne den Text selbst zu verändern. Natürlich wird nicht bei jedem Satz eine Emotion eingefügt, sondern nur dort, wo es sinnvoll ist.

Der Text wird dann im richtigen Format für Elevenlabs ausgegeben, sodass ihr ihn direkt per Copy & Paste einsetzen könnt.

Link zur Custom GPT:

Ihr könnt die GPT kostenlos nutzen und seid herzlich eingeladen, Feedback hier oder unter den YouTube-Videos zu hinterlassen. Mit der Zeit werden wir die GPT weiter optimieren, wobei wir uns vorerst auf kleine, sichere Verbesserungen konzentrieren.

Was ist besser?

Die Custom GPT ist eine hilfreiche Unterstützung, die bessere Ergebnisse liefert als der reine Einsatz von Elevenlabs. Natürlich erreicht sie nicht die Präzision einer händischen Bearbeitung. Aber ihr könnt den von der GPT erstellten Text problemlos weiter anpassen und verfeinern, um das Maximum herauszuholen.

Beispieltext: ""

Beispieltext nach Anwendung der Custom GPT: ""

14 - Die besten "Emotions-Wörter"

Hier ist eine Liste bewährter Emotionswörter, die besonders gut mit Elevenlabs harmonieren. Diese Wörter werden am Ende eines Textes eingefügt, um die Betonung gezielt und subtil zu lenken. Die Custom GPT nutzt diesen Pool zu 90 %, behält jedoch kreativen Spielraum, wenn alternative Wörter besser passen.

Happiness:

he said joyfully, he said elatedly, he said gleefully, he said cheerfully, he said blissfully, he said ecstatically, he said contentedly, he said brightly, he said upbeat, he said gratefully

Sadness:

he said melancholically, he said despondently, he said mournfully, he said heartbrokenly, he said downcast, he said sorrowfully, he said blue, he said tearfully, he said depressed, he said pensively

ANGER:

he said furiously, he said irritably, he said enraged, he said lividly, he said wrathfully, he said resentfully, he said agitatedly, he said fuming, he said annoyed, he said outraged

Fear:

he said terrified, he said anxiously, he said frightened, he said panicked, he said apprehensively, he said alarmed, he said horrified, he said uneasily, he said intimidated, he said shaken

Surprise:

he said amazed, he said shocked, he said astonished, he said stunned, he said awestruck, he said bewildered, he said flabbergasted, he said taken aback, he said startled, he said impressed

Love:

he said affectionately, he said passionately, he said devotedly, he said tenderly, he said compassionately, he said adoringly, he said fondly, he said cherishingly, he said warm-heartedly, he said intimately

Disgust:

he said repulsed, he said nauseated, he said revolted, he said appalled, he said sickened, he said disdainfully, he said contemptuously, he said grossed out, he said repelled, he said distastefully

Calmness:

he said serenely, he said tranquilly, he said relaxed, he said peacefully, he said composedly, he said collectedly, he said placidly, he said untroubled, he said soothingly, he said undisturbed

Curiosity:

he said inquisitively, he said intrigued, he said fascinated, he said wondering, he said eagerly, he said interestedly, he said engaged, he said investigatively, he said searchingly, he said probing

Confusion:

he said puzzled, he said perplexed, he said bewildered, he said baffled, he said disoriented, he said mystified, he said confounded, he said discombobulated, he said uncertainly, he said lost

Kommentieren, diskutieren und teilen!

Anmelden