ELEVENLABS 2025 - Voice Cloning auf neuem Level!

Startseite | Caramba, 15.11.24

Teil 3

Im dritten Teil dreht sich alles um die optimale Vorbereitung und die Wahl des richtigen Equipments, um beeindruckende Ergebnisse mit Instant Voice Cloning und professionellem Voice Cloning zu erzielen. Wir erläutern, wie ihr die geklonte Stimme effizient einsetzen könnt und geben euch hilfreiche Tipps zu passenden Einsatzmöglichkeiten.

ELEVENLABS gratis*

* Im Free-Plan - 10.000 Credits / Monat gratis - Affliate Link

Inhaltsverzeichnis:

TEIL 1: Elevenlabs Tutorial - START
TEIL 2: Elevenlabs Tutorial - Fortgeschrittene
TEIL 3: Elevenlabs Tutorial - Voice Cloning
TEIL 4: Elevenlabs Tutorial - Workflows
TEIL 5: Elevenlabs Tutorial - Praxis und FAQ

Einsatzmöglichkeiten in der Praxis

Vielleicht habt ihr bereits eine Vorstellung, wie ihr Voice Cloning einsetzen möchtet – doch die folgenden Ideen könnten zusätzliche Inspiration bieten.

Bei Krankheit: Falls ihr einmal erkältet, krank oder im Urlaub seid, kann Voice Cloning dafür sorgen, dass trotzdem neue Inhalte mit eurer Stimme erstellt werden können. Die geklonte Stimme bleibt dabei authentisch und klingt fast wie das Original.

Fremdsprachen: Für alle, die international expandieren möchten, kann Voice Cloning eine spannende Option sein, um die eigene Stimme in anderen Sprachen einzusetzen. Der persönliche Stil bleibt erhalten, und oft wirkt es natürlicher, als selbst in einer fremden Sprache zu sprechen.

Sprachassistent oder Chatbot: Ein eigener Sprachassistent oder Chatbot lässt sich mit eurer Stimme ausstatten, was der Kommunikation eine persönliche Note verleiht.

Newsartikel, Bücher: Wer eine Webseite betreibt oder ein langes Hörbuch vertonen möchte, profitiert von Voice Cloning: Die eigene Stimme kann in gleichbleibender Qualität und ohne hohen Zeitaufwand genutzt werden. Gerade für News-Seiten ist es kostensparend, wenn neue Artikel nicht jedes Mal neu eingesprochen werden müssen.

Personalisierte Nachrichten: Angelehnt an den Chatbot, lassen sich auch personalisierte Nachrichten oder Telefonansagen mit eurer Stimme generieren, was sich besonders im Kundenkontakt gut einsetzen lässt.

Die eigene Stimme anpassen: Durch gezielte Bearbeitung vor dem Training ist es möglich, die Stimme leicht anzupassen und so einen frischen Klang zu erzeugen, der dennoch den persönlichen Touch der eigenen Stimme behält.

Mit einer guten geklonten Stimme habt ihr weit mehr Möglichkeiten und bleibt flexibel – selbst dann, wenn ihr mal keine Zeit habt.

Welches Abo ist nötig?

Das Instant Voice Cloning steht ab dem Starter-Plan zur Verfügung, während das Professional Voice Cloning erst ab dem Creator-Plan nutzbar ist. Neukunden können über den Link "Elevenlabs*" im ersten Monat 50 % Rabatt auf den Creator Plan bekommen. Dieser vergünstigte Einstieg ist besonders sinnvoll, um zu Beginn alle Funktionen umfassend zu testen. Anschließend ist ein problemloser Wechsel in den Free- oder Starter-Plan mit nur einem Klick möglich.

Perfekte Aufnahmequalität: So geht’s

Eine saubere Aufnahme ohne Rauschen und Nebengeräusche ist das A und O für ein optimales Endergebnis – viel wichtiger als die Länge der Aufnahme. Hier sind die besten Möglichkeiten:

Option 1: Studioaufnahme

Für höchste Audioqualität empfiehlt sich eine Aufnahme im Studio, wo professionelle Akustik und Equipment perfekt aufeinander abgestimmt sind. Elevenlabs nutzt für seine professionellen Stimmen selbst mehrere Studios und standardisierte Abläufe. Da dies jedoch für viele unrealistisch ist, werfen wir einen genaueren Blick auf die nächste Möglichkeit.

Option 2: Aufnahme zu Hause

Bei Heimaufnahmen unterscheidet man grundsätzlich zwei Szenarien: ruhige Umgebung und Umgebung mit Nebengeräuschen. Letztlich ist es auch eine Frage des persönlichen Geschmacks, denn Mikrofone klingen individuell unterschiedlich. Hier ist eine Übersicht über sinnvolle Ausstattungen.

Aufrüstung

Die folgenden mit * gekennzeichneten Links sind Affiliate Links. Wir erhalten eine kleine Provision, euch entstehen keine Nachteile oder Mehrkosten.

Günstige Option: USB-Mikrofon

Wer bereits ein Mikrofon hat, sollte dieses nutzen. Ein USB-Mikrofon ist eine einfache und preiswerte Wahl, da keine zusätzliche Hardware benötigt wird. Mit einem Rode NT USB hat man ein hochwertiges Mikrofon und braucht kein zusätzliches Equipment.

Rode NT USB auf Amazon*

Shure MV7+ USB auf Amazon*

Hochwertige Option für ruhige/optimierte Räume

Für eine erstklassige Heimaufnahme in einer leisen oder optimierten Umgebung eignet sich die Kombination Rode NT1 + Scarlett Focusrite. Mit einem Popfilter ergänzt, erhält man eine hochwertige Aufnahmequalität. Da das Rode NT1 als Großmembran-Kondensatormikrofon empfindlicher auf Umgebungsgeräusche reagiert, ist eine ruhige Umgebung ideal.

Rode NT-1 auf Amazon*

Scarlett Solo Interface auf Amazon*

Rode Stativ auf Amazon*

Hochwertige Option für nicht optimierte Räume

In weniger idealen Räumen empfiehlt sich ein dynamisches Mikrofon. Das Shure SM7B ist hier der Favorit, da es nahe am Mikrofon besprochen wird und Nebengeräusche zuverlässig ausblendet. Ein leistungsstarkes Interface wie das Elgato Wave mit 75 dB Gain ist hier ideal, da es selbst anspruchsvolle Mikrofone wie das SM7B optimal betreibt. Alternativ kann man das günstigere Rode Podmic verwenden.

Shure SM7B auf Amazon*

Rode Podmic auf Amazon*

Elgato Wave XLR auf Amazon*

Rode Stativ auf Amazon*

Hinweis: Diese Vorschläge gehören zu den beliebtesten und bewährten Kombinationen. Da es jedoch viele verschiedene Mikrofone und Stimmklänge gibt, hilft am Ende nur: ausprobieren und das finden, was am besten gefällt.

Popfilter – Pflicht für sauberen Klang

Ein Popfilter ist unerlässlich, um störende Plosivgeräusche zu minimieren und eine gleichmäßige Klangqualität zu gewährleisten. Manche Mikrofone wie das Shure SM7B haben bereits einen Popfilter.

Mikrofonabstand – Nah dran für satten Sound

Der ideale Abstand zum Mikrofon hängt von der gewünschten Stimmcharakteristik ab. Dynamische Mikrofone wie das Shure SM7B entfalten ihr volles Potenzial, wenn sie nahe besprochen werden. Für einen bassbetonten, radiotauglichen Sound eignet sich ein besonders geringer Abstand. Probiert verschiedene Distanzen und Ausrichtungen aus, um den gewünschten Klang für die geklonte Stimme zu erzielen.

Hintergrundgeräusche und Rauschen vermeiden

Hintergrundgeräusche, wie Musik oder Gespräche, sollten komplett vermieden werden. Hoher Gain verstärkt das Rauschen – daher lieber den Mikrofonabstand verringern und den Gain reduzieren, anstatt durch Entfernung einen höheren Pegel zu verwenden.

Raumakustik optimieren – Schnell und einfach

Zur kurzfristigen Verbesserung der Akustik helfen dicke Vorhänge oder das Aufhängen von Decken und Handtüchern, um störenden Raumhall zu mindern und den Klang merklich zu verbessern.

Nachbearbeitung – KI-unterstützt zur perfekten Stimme

Falls die Aufnahme noch störende Nebengeräusche enthält, können KI-Tools diese oft zuverlässig entfernen – zum Beispiel mit dem Voice Isolator direkt in Elevenlabs.

Der wichtigste Tipp

Sprecht in der Aufnahme so, wie ihr euch die geklonte Stimme später vorstellt. Bearbeitet das Audio also entsprechend, um den gewünschten Klang zu erzielen. Für eine typische Podcast-Stimme könnt ihr Kompressor und Equalizer einsetzen, um der Aufnahme Tiefe und Klarheit zu verleihen. Wenn ihr Pausen oder Füllwörter wie „ähms“ und „ahms“ bevorzugt, integriert sie direkt in die Aufnahme. Alle Eigenarten eurer Stimme werden später in die geklonte Version übernommen.

Lautstärke der Aufnahme

Die Lautstärke sollte so eingestellt sein, dass sie klar und deutlich klingt, ohne zu verzerren. Ein gleichmäßiger und ausgewogener Pegel ist wichtig, aber das bedeutet natürlich nicht, dass ihr monoton sprechen müsst – sonst wirkt auch die KI-Stimme später eintönig.

Empfehlenswert ist eine Lautstärke zwischen -23 dB und -18 dB RMS, mit echten Spitzen bei -3 dB. Wenn euch Begriffe wie „RMS“ oder „echte Spitze“ nicht vertraut sind, schaut in eurem Audioprogramm nach – meist lassen sich diese Werte dort ablesen und die Lautstärke oft direkt normalisieren.

Rauschfreie Aufnahme

Störgeräusche sollten vermieden werden. Eine etwas leisere, dafür rauschfreie Aufnahme ist besser als eine laute mit Rauschen. Alternativ könnt ihr eine lautere Aufnahme machen und das Rauschen im Nachhinein entfernen.

Der perfekte Text für die Sprachaufnahme

Der ideale Weg zur perfekten geklonten Stimme beginnt mit einem passenden Text, den ihr einfach vorlesen könnt. Elevenlabs stellt dafür bereits einige umfangreiche Skripte bereit, jedoch ausschließlich auf Englisch:

Diese Texte ins Deutsche zu übersetzen, ist nicht die beste Wahl. Ebenso würden wir auch diese Texte NICHT für die englische Sprache empfehlen. Skripte, die nicht dem eigenen Sprachgebrauch entsprechen, wirken oft unnatürlich und die persönliche Ausdrucksweise geht verloren.

Wie macht man es besser?

Am besten ist es, wenn ihr bereits eigene Aufnahmen habt, die eure typische Sprechweise einfangen. Alternativ könnt ihr Texte nach eurem Sprachgebrauch verfassen – mit Redewendungen, Eigenarten und typischen Themen, die eurem späteren Content entsprechen. Wenn ihr über künstliche Intelligenz sprechen möchtet, sollte ein Teil eurer Aufnahmen dieses Thema abdecken. Schreibt und sprecht so, wie ihr euch später hören möchtet.

Falls ihr mehr Material benötigt, kann ChatGPT eure Texte basierend auf euren Vorgaben erweitern. Nennt das gewünschte Themengebiet und eure Eigenarten, um zusätzliche Texte im passenden Stil zu generieren. Neben einem allgemeinen Text empfiehlt sich ein spezifischer Text mit charakteristischen Wörtern und Redewendungen. Fremdwörter sollten dabei sparsam eingesetzt und Sätze in anderen Sprachen möglichst vermieden werden.

Wichtiger als der Text: die Sprechweise

Wichtiger als die Textvorlage ist, wie ihr den Text einsprecht. Tonqualität, Akzent, Tonfall, Betonung bestimmter Wörter sowie Klang der Vokale und Konsonanten werden später von der KI detailgetreu nachgeahmt. Wenn ihr Hörbücher erstellen wollt, achtet darauf, auch Emotionen einzubringen: Wie klingt ihr, wenn ihr überrascht seid? Oder verärgert? Zudem ist das Sprechtempo entscheidend – eine langsame Aufnahme lässt sich später schwer in eine schnelle TikTok-Stimme verwandeln.

Wer diese Punkte bei der Aufnahme berücksichtigt, erhält am Ende einen äußerst authentischen und vielseitig nutzbaren Voice-Clone.

Instant Voice Cloning:

Hier folgt in ca. 2 Wochen noch ein Beispiel mit Original-Stimme, Instant Voice Cloning und Professional Voice Cloning. Professional Voice Cloning ist leider erst in 2 Wochen bei mir wieder verfügbar und dann werde ich das aufzeichnen.

Start

Um eine neue Stimme zu erstellen, klickt ihr auf „Add a new Voice“ und wählt „Instant Voice Clone“. Befolgt die Tipps und Hinweise und ladet eure Sprachdateien hoch. Ein Klick auf „Add Voice“ reicht, um den Vorgang abzuschließen. Falls die Audiodaten noch Hintergrundgeräusche enthalten, könnt ihr „Remove Background Noise“ aktivieren, um diese zu entfernen.

Nach wenigen Sekunden bis Minuten steht die geklonte Stimme zur Verfügung und kann wie jede andere Stimme genutzt werden. Es ist sogar möglich, mehrere Stimmen anzulegen und beliebig zwischen ihnen zu wechseln.

+

Professional Voice Cloning:

Für das Klonen eurer Stimme ist die Gesamtlänge der Audiodateien entscheidend. Ob ihr sie als Einzeldatei oder in mehreren kürzeren Aufnahmen hochladet, spielt dabei keine Rolle. Als Mindestanforderung gelten 30 Minuten, doch eine Aufnahme von über einer Stunde liefert deutlich bessere Ergebnisse (max. 1,5 GB, max. 100 Dateien).

+

Upload der Dateien

Achtet unbedingt darauf, nur die korrekten Audiodateien hochzuladen, denn nach dem Upload sind keine Änderungen mehr möglich. Das Modell trainiert mit diesen Daten über mehrere Stunden auf Hochleistungsrechnern, was nachträgliche Anpassungen unmöglich macht.

Verifikation: Der letzte Schritt

Nach dem Upload erfolgt der Verifikationsschritt. Stellt sicher, dass ihr tatsächlich eure eigene Stimme geklont habt und verwendet idealerweise das gleiche Aufnahme-Equipment, mit dem ihr die Dateien erstellt habt. Falls ihr im Studio oder mit der Hilfe eines Freundes aufgenommen habt, benötigt ihr eventuell nochmals Zugang dazu. Gelingt die Verifikation nicht, bleibt nur der Weg über den Support – mit dessen Ablauf habe ich jedoch keine Erfahrung.

Fine-Tuning: Die Stimme weiter verbessern

Sobald die Stimme grundlegend zufriedenstellend ist, kann sie durch „Fine-Tuning“ über einige Wochen weiter trainiert und optimiert werden.

Professional Voice Cloning: Der Unterschied zum Instant-Klon

Für das professionelle Klonen startet ihr wie gewohnt, wählt jedoch „Professional Voice Cloning“. Anders als beim Instant-Klon stehen hier umfassendere Optionen und zusätzliche Hinweise zur Verfügung. Da die Stimmen bei korrekter Anwendung besonders realistisch klingen, ist eine zusätzliche Verifikation erforderlich. Andere Stimmen zu klonen ist hier keine Option.

Dauer des Prozesses

Im Gegensatz zum „Instant Voice Cloning“, bei dem die Stimme sofort nutzbar ist, dauert der Prozess beim Professional Voice Cloning in der Regel etwa 6 Stunden. Früher konnte dies sogar mehrere Wochen in Anspruch nehmen, da die Nachfrage hoch war. Mittlerweile wurde jedoch die Hardware verbessert, was die Bearbeitungszeit erheblich verkürzt.

ZURÜCK SEITE 2

WEITER SEITE 4