ELEVENLABS 2025 - Profi Funktionen: Projekte, Dubbing, KI-Chatbots, Voiceover

Startseite | Caramba, 15.11.24

Teil 4

Im vierten Teil geht es in den (semi-)professionellen Bereich. Viele der erweiterten Funktionen stehen erst ab dem Creator-Plan zur Verfügung, und einige erfordern sogar den Pro-Plan. Diese Optionen bieten jedoch umso mehr praktische, vielseitige und professionelle Möglichkeiten, die die Nutzung auf ein neues Level heben.

Wir beginnen mit der Erklärung von Projekten und haben beispielhaft ein Hörbuch im Stil der "3 Fragezeichen" in wenigen Minuten erstellt. Außerdem zeigen wir, wie man komplette Videos per Knopfdruck in beliebige Sprachen übersetzt, Soundeffekte oder zusätzliche Stimmen hinzufügt und virtuelle Podcasts erstellt. Zum Abschluss haben wir sogar einen "Albert-Einstein-Chatbot" gebaut, der uns Mathematik erklärt.

ELEVENLABS gratis*

* Im Free-Plan - 10.000 Credits / Monat gratis - Affliate Link

Inhaltsverzeichnis:

TEIL 1: Elevenlabs Tutorial - START
TEIL 2: Elevenlabs Tutorial - Fortgeschrittene
TEIL 3: Elevenlabs Tutorial - Voice Cloning
TEIL 4: Elevenlabs Tutorial - Workflows
TEIL 5: Elevenlabs Tutorial - Praxis und FAQ

Projects: Kreative Arbeitsbereiche für die Audioproduktion

Der Bereich "Projects" ist das Herzstück der ElevenLabs-Plattform und bietet eine strukturierte Umgebung zur effizienten Verwaltung und Organisation von Audioprojekten. Nutzer können Projekte einfach erstellen, speichern und mit Teammitgliedern teilen, was die Zusammenarbeit erheblich vereinfacht. Jeder Projektraum ist in verschiedene „Szenen“ unterteilt, die wiederum verschiedene Audioelemente enthalten können. Diese Struktur hilft besonders bei komplexeren Audioproduktionen, den Überblick zu behalten.

+

Auswahl der Qualität

Im Creator-Plan ist nur die Standard-Qualität verfügbar, die für kleinere Projekte in der Regel ausreicht. Für größere Produktionen oder lange Hörbücher stößt dieser Plan jedoch schnell an seine Grenzen. Ein Upgrade auf den Pro-Plan oder höher ermöglicht gegen einen Aufpreis von 20–100 % eine signifikante Steigerung der Ausgabequalität. Dabei erhöht sich die Bitrate von 128 kbps auf 192 oder sogar 700 kbps, und zusätzlich werden Texte bei längeren Aufnahmen konsistenter und gleichmäßiger optimiert.

Download-Einstellungen

Lautstärke und weitere Parameter lassen sich nach den gängigen Audiobook-Richtlinien anpassen, mit einem Klick. Zusätzlich können Metadaten hinzugefügt werden – diese Optionen sind hilfreich, können aber auch nachträglich in einem Audio-Editor bearbeitet werden.

Aussprache-Wörterbücher

Eine besonders nützliche Funktion: Durch den Upload einer Datei im Format .txt, .pls oder .xml können bestimmte Wörter individuell ausgesprochen werden. Dies ermöglicht deutlich mehr Kontrolle über die finale Ausgabe.

Dokumente hochladen oder Websites importieren

Nutzer können vollständige Bücher im .epub-Format hochladen oder Websites einfügen, die dann direkt ins Projekt übernommen werden.

Inhalte erstellen im Projekt

Nun können verschiedene Abschnitte (Chapter) erstellt werden und diese dann mit Text befüllt werden. Hier können dann auch unterschiedliche Stimmen usw. ausgewählt werden und einzelne Abschnitte in Sprache umgewandelt werden.

Tipp: Seit Kurzem gibt es die Möglichkeit, oben rechts auf "Enable Projects v2" umzuschalten. Obwohl diese neue Version eine verbesserte Benutzeroberfläche bietet, können noch vereinzelt Fehler und Abbrüche auftreten. Daher ist aktuell noch die Nutzung von v1 zu empfehlen.

+

Das erste Projekt

Nachdem das erste Projekt erstellt wurde, erwartet einen eine übersichtliche Benutzeroberfläche. Hier lassen sich die allgemeinen Einstellungen anpassen, und man kann entweder direkt schreiben oder einen bereits vorbereiteten Text einfügen und weiter bearbeiten.

Kapitelverwaltung

Um Struktur in das Projekt zu bringen, kann der Text – ähnlich wie in einem Buch – in verschiedene Kapitel unterteilt werden. Jedem Kapitel lässt sich dabei eine individuelle Stimme zuweisen. Auch innerhalb eines Kapitels kann man für einzelne Wörter oder Absätze die Stimme ändern. So ist es nicht notwendig, jedes Mal ein neues Kapitel zu erstellen, wenn eine neue Stimme genutzt werden soll. Dafür einfach den Text markieren und die Stimme zuweisen.

+

Sprachgenerierung

Am Ende kann das gesamte Projekt auf einmal oder abschnittsweise generiert werden. Besonders bei großen Projekten empfiehlt es sich, kapitelweise vorzugehen, das Ergebnis anzuhören, Anpassungen vorzunehmen und dann mit dem nächsten Kapitel weiterzumachen. Einmal generierte Abschnitte werden gespeichert und nicht erneut berechnet oder abgerechnet. So hat man die Wahl: entweder in kleineren Schritten bezahlen oder am Ende den Gesamtbetrag auf einmal.

Erste Herausforderungen

In meinem Hörbuchbeispiel, das ich in wenigen Minuten mithilfe von ChatGPT und ElevenLabs erstellt habe, ist mir beispielsweise erst später aufgefallen, dass eine Stimme keine Umlaute korrekt aussprechen kann. Um solche oder ähnliche Probleme frühzeitig zu erkennen, ist es ratsam, gerade zu Beginn in kleineren Schritten vorzugehen.

Beispielprojekt: Kriminalfall im Stil der "3 Fragezeichen"

Natürlich kann man mit mehr Aufwand und Feinarbeit noch deutlich bessere Ergebnisse erzielen. Doch auch dieses Beispiel zeigt bereits das enorme Potenzial dieser Tools.

Voiceover Studio: Erstellen interaktiver Audioprojekte

Das Voiceover Studio eröffnet den Nutzern neue Möglichkeiten, Audioinhalte zu gestalten. Im Gegensatz zum Dubbing Studio bietet diese Funktion mehr kreative Freiheit. Nutzer können nicht nur Dialoge erstellen und Sprecher auswählen, sondern auch frei gestaltete Soundeffekte (SFX) in die Audioprojekte einfügen. Hier ein Überblick über die Funktionen.

Erstellen eines Voiceovers

Zum Start klickt man auf „Neues Voiceover erstellen“. Anschließend kann man ein Video, eine Audiodatei hochladen oder das Voiceover von Grund auf neu entwickeln. Sobald das Voiceover benannt ist, öffnet sich das Studio, das mit der Benutzeroberfläche des Dubbing Studios vertraut wirken dürfte, jedoch einige erweiterte Möglichkeiten bietet.

+

Zeitleiste

Die Zeitleiste befindet sich im unteren Bereich und zeigt das Projekt als lineare Darstellung. Jeder Track, sei es für Voiceover oder SFX, ist in einer eigenen Zeile. Links gibt es Informationen zum Track, in der Mitte lassen sich Clips platzieren und auf der rechten Seite kann man die Clip-Einstellungen anpassen.

Sprecherkarten

Im Voiceover Studio erstellt der Nutzer die Sprecherkarten selbst – im Gegensatz zum Dubbing Studio, wo dies automatisch erfolgt. Nach der Projekterstellung beginnt man daher mit dem Hinzufügen von Tracks und Clips.

Tracks hinzufügen

Es gibt drei Typen von Tracks: Voiceover, SFX und hochgeladene Audioinhalte.

- Voiceover-Tracks: Diese erstellen neue Sprecher. Man kann Text auf die Sprecherkarten schreiben und das System generiert dann die Sprache.

- SFX-Tracks: Diese ermöglichen das Einfügen von Soundeffekten, die sich in Länge und Position anpassen lassen.

- Hochgeladene Audiospuren: Ideal für Hintergrundmusik oder andere Audiodateien ohne Sprecher, die in die Übersetzung nicht einbezogen werden.

Track-Features

Sobald ein Track erstellt wurde, gibt es auf der linken Seite Optionen wie das Umbenennen des Tracks oder das Anpassen der Stimme. Über ein kleines Kopfhörersymbol kann man einzelne Tracks solo anhören, und das Entfernen von Tracks erfolgt über ein Dropdown-Menü.

Unterschiede zum Dubbing Studio

Das Voiceover Studio bietet bei nicht hochgeladenen Videos eine komplett freie Zeitleiste, ohne feste Zeitlimits. Auch die Cliplänge passt sich automatisch dem Text an („dynamische Generierung“). Beim Dubbing Studio hingegen ist die Standardgenerierung festgelegt, um das Timing mit dem Video zu synchronisieren.

Kosten und Export

Die Erstellung des Projekts ist kostenlos, Kosten fallen jedoch bei jeder Generierung an. Voiceover und SFX haben unterschiedliche Kosten, und Übersetzungen in andere Sprachen kosten zusätzlich. Exportiert wird das fertige Projekt über die Export-Option unten rechts.

Skripte hochladen

Voiceover Studio erlaubt das Hochladen von Skripten im CSV-Format. Nach dem Import müssen die Sprecher den einzelnen Clips zugewiesen werden. Start- und Endzeiten werden automatisch geschätzt, falls keine Angaben gemacht wurden.

Dynamische und feste Dauer

Standardmäßig wird die Cliplänge dynamisch erzeugt. Mit der „festen Dauer“ kann man die Cliplänge jedoch vorgeben, was allerdings die Klangqualität beeinträchtigen kann. Mehrere Clips lassen sich gemeinsam generieren, indem sie über „Shift + Klick“ ausgewählt werden.

Beispielprojekt: "Virtueller Podcast"

Im dem Podcast geht es um das Thema: "KI - JA oder NEIN?".

Dubbing Studio: Einfaches Synchronisieren von Inhalten

Das Dubbing Studio von ElevenLabs ermöglicht euch, Inhalte mühelos in andere Sprachen zu synchronisieren. Dank automatisierter Sprachübersetzungen bleibt die Originalstimme erhalten, wodurch Inhalte weltweit zugänglich werden.

Was ist Dubbing?

Dubbing bezeichnet das Hinzufügen einer neuen Sprachspur zu einem Video oder Audioinhalt, die von der Originalsprache abweicht. ElevenLabs schafft es dabei, die Synchronisation sehr natürlich wirken zu lassen, ohne zu viel Authentizität zu verlieren.

+

Erste Schritte

Im Tab „Dubbing“ findet ihr eine Übersicht eurer bisher synchronisierten Projekte. Klickt auf „Neues Dubbing erstellen“, um ein Projekt zu starten. Wählt dann einen Namen, die Original- und Zielsprache sowie das gewünschte Video oder Audio aus. Die maximale Dateigröße beträgt 500 MB und die Dauergrenze 45 Minuten. Größere Projekte lassen sich jedoch über die API erweitern.

Kostenstruktur für Dubbing

Die Preise variieren je nach Optionen und Qualität:

- Automatische Synchronisation mit Wasserzeichen: 2.000 Credits/Minute

- Ohne Wasserzeichen: 3.000 Credits/Minute

- Dubbing Studio mit Wasserzeichen: 5.000 Credits/Minute

- Ohne Wasserzeichen: 10.000 Credits/Minute

Dubbing Studio Projekt erstellen

Wenn ihr ein „Dubbing Studio“-Projekt auswählt, erhaltet ihr Zugang zu einem umfangreichen Editor. Hier lassen sich Einstellungen anpassen, Clips neu generieren und auch Übersetzungen sowie Transkriptionen direkt bearbeiten. Für präzise Ergebnisse empfiehlt es sich, die Anzahl der Sprecher manuell festzulegen, da die automatische Erkennung nicht immer genau ist.

Studio-Oberfläche

Im oberen Bereich des Studios seht ihr die Sprecherkarten mit transkribiertem und übersetztem Audiomaterial. Rechts ist das Video sichtbar, das frei positioniert und skaliert werden kann. Unten befindet sich die Zeitleiste, auf der die verschiedenen Sprecher auf separaten Spuren angezeigt werden, deren Sprechanteile als Clips markiert sind. Diese Clips könnt ihr nach Bedarf anpassen und neu generieren.

Sprecherkarten

Die Sprecherkarten in der Mitte des Studios zeigen das gesprochene und übersetzte Material. Mit einem Umschalter unter der Zeitleiste könnt ihr zwischen verschiedenen Sprachversionen wechseln und festlegen, in welcher Sprache das Video abgespielt werden soll.

Zeitleiste

In der Zeitleiste seht ihr die Spuren der einzelnen Sprecher. Auf der linken Seite könnt ihr die Namen der Sprecher umbenennen, um das Projekt übersichtlicher zu gestalten. In der Mitte befinden sich die Clips, die den Zeitpunkt des Sprechens markieren, und rechts die Einstellungen für jeden einzelnen Clip.

Tracks und Clips

Jeder Sprecher hat eine eigene Spur mit Clips, die das gesprochene Material repräsentieren. Ihr könnt die Clips unabhängig voneinander verschieben, zusammenfügen oder teilen und die Stimme sowie Lautstärke individuell anpassen. Wenn ein Clip aktualisiert werden muss, erscheint eine Warnung „Stale“, die darauf hinweist, dass eine Neugenerierung notwendig ist.

Ergänzende Audio- und SFX-Spuren

Unter der Track-Liste könnt ihr weitere Spuren hinzufügen:

- Synchronsprecher-Tracks: Wenn mehrere Sprecher in einer Spur erkannt wurden, lassen sich diese auf eigene Spuren verschieben.

- SFX-Spuren: Diese ermöglichen das Hinzufügen von Soundeffekten, die frei in der Zeitleiste platziert werden können.

Dynamische und feste Dauer

Standardmäßig sind die Clips im Dubbing Studio auf „Feste Dauer“ eingestellt, um das Timing beizubehalten. Wenn der Text kürzer oder länger ist, kann dies jedoch die Sprachqualität beeinflussen. In solchen Fällen empfiehlt sich die Einstellung „Dynamische Dauer“, die die Clip-Länge automatisch an den Text anpasst.

Manueller Import

Für komplexere Projekte könnt ihr den manuellen Import nutzen, bei dem alle Dateien einzeln hochgeladen werden. Ein CSV-Dokument mit Angaben zu Sprechern und Zeitcodes vereinfacht das Einpflegen der Transkriptionen und Übersetzungen.

Mit diesen umfangreichen Funktionen ermöglicht das Dubbing Studio eine präzise und hochwertige Synchronisation, die sich flexibel an verschiedene Anforderungen anpassen lässt.

Beispiel: Intro auf Spanisch

Entweder man geht in den Editor rein und hat etwas höhere Kosten oder man lässt es sich direkt einfach in eine andere Sprache dubben. Hier haben wir das Intro einfach mal auf Spanisch gestellt.

Die eigene Website als Audio-Erlebnis

Mit "Audio Native" bietet Elevenlabs eine spannende Möglichkeit, Webseiten mit einer Vorlesefunktion auszustatten. Besucher können sich so Inhalte in Audioform vorlesen lassen, und das in einer individuell wählbaren, hochwertigen Stimme.

Wie funktioniert das?

Für die Implementierung braucht es zwei Schritte: Zuerst fügt man auf der eigenen Website einen Code-Schnipsel ein, der sich automatisiert auf allen Seiten einsetzen lässt. Damit ist der technische Aufwand minimal. Anschließend werden die Seiten bei Elevenlabs eingetragen, was in Sekundenschnelle erledigt ist – und schon ist die Vorlesefunktion einsatzbereit.

Kosten

Für die Nutzung fallen die üblichen Kosten für die Text-zu-Sprache-Umwandlung an. Diese Funktion eignet sich daher eher für größere Websites mit regelmäßigem Traffic. Bei Seiten mit langen Inhalten, die auch über längere Zeiträume relevant bleiben – beispielsweise Geschichtsdokumentationen –, können sich die Kosten auch lohnen. Für Webseiten mit geringem oder nur sporadischem Besucherverkehr sind die laufenden Ausgaben dagegen schwer zu rechtfertigen.

Elevenlabs als Alternative zum erweiterten ChatGPT Voice Mode

Mit Elevenlabs lässt sich ein individueller Sprach-Assistent erstellen, der das bekannte ChatGPT Voice Mode-Erlebnis nicht nur nachahmt, sondern in einigen Punkten sogar verbessert. Allerdings sei vorab gesagt: Die Nutzung ist kostspielig. Pro Minute fallen rund 1.000 Tokens an, was im Creator-Abo etwa 22 Cent entspricht. Hinzu kommen später auch noch Zusatzkosten für das Sprachmodell, z. B. GPT-4.

Unterschiede zwischen ChatGPT Voice Mode und Elevenlabs

Mit Elevenlabs kann man sich einen maßgeschneiderten Sprachassistenten für spezifische Anwendungen einrichten. Hierbei ist nicht nur die Wahl einer individuellen Stimme möglich – inklusive eigener Stimme – sondern auch die Auswahl des passenden Sprachmodells, etwa GPT-4 oder Gemini Flash.

Anwendungsbeispiel: Ich habe einen Assistenten namens „Albert Einstein“ für mathematische Aufgaben erstellt, der auf GPT-4 setzt, da dieser Anwendungsfall mehr Rechenleistung und Präzision erfordert.

Leistungsmerkmale

Natürliche Interaktion: Die konversationelle KI erkennt Sprachkontexte und Nuancen, wodurch sich authentische Gespräche gestalten lassen. Das gewählte Sprachmodell spielt dabei eine entscheidende Rolle. Während für einen wissenschaftlichen Assistenten ein leistungsfähiges Modell sinnvoll ist, eignen sich für spielerische NPCs im Game eher einfache, schnelle Modelle wie Gemini Flash.

Anpassbare Gesprächsstile: Der Tonfall und die „Persönlichkeit“ der KI lassen sich nach Zielgruppenanforderungen anpassen, was das Benutzererlebnis deutlich verbessert.

Echtzeit-Antworten: Dank schneller Reaktionszeiten ist Elevenlabs besonders gut für dynamische Anwendungsfälle wie Kundeninteraktionen geeignet.

Eine Integration eines solchen Avatars auf der eigenen Webseite ist ebenfalls möglich. Doch aufgrund der Kosten sollte man gut abwägen, wann und wie der Einsatz sinnvoll ist. Während kurze, informative Gespräche kostentechnisch vertretbar sein können, wird ein längerer Dialog schnell teuer.

Man könnte noch ganze Bücher über das Kapitel erzählen und natürlich auch mehr zu API, weil man mit Elevenlabs einfach viele coole Sachen realisieren könnte. Damit das Ganze erstmal nicht ausartet, habe ich hier jetzt noch interessante Links zu Quellen von Elevenlabs verlinkt. Diese sind aber nur auf Englisch verfügbar. Wenn ihr euch für diesen ganzen Bereich noch mehr interessant, kann ich gerne in den nächsten Wochen noch eine Ergänzung bringen.

LINKS:

https://elevenlabs.io/docs/projects/overview

https://elevenlabs.io/docs/audio-native/overview

https://elevenlabs.io/docs/audio-native/audio-native-react

https://elevenlabs.io/docs/dubbing/overview

https://elevenlabs.io/docs/conversational-ai/overview

https://elevenlabs.io/docs/sound-effects/overview

https://elevenlabs.io/docs/voiceover-studio/overview

https://elevenlabs.io/docs/troubleshooting/overview

ZURÜCK SEITE 3

WEITER SEITE 5