Open-Source-Stimmklonung: Zonos hebt TTS auf das nächste Level

Zyphra veröffentlicht Zonos-v0.1 – ein frei zugängliches Modell für hochpräzise Sprachsynthese mit Transformer-Technologie.

Kurzfassung | Caramba, 12.02.25

Flux Schnell | All-AI.de

EINLEITUNG

Das KI-Startup Zyphra hat mit Zonos-v0.1 ein neues Open-Source-Modell für Text-zu-Sprache (TTS) und Stimmklonung vorgestellt. Dieses Modell ermöglicht die Generierung von natürlich klingender Sprache aus Texteingaben und kann mit nur 5 bis 30 Sekunden Sprachdaten eine Stimme klonen. Zonos unterstützt mehrere Sprachen, darunter Englisch, Japanisch, Chinesisch, Französisch und Deutsch.

NEWS

Technische Details und Funktionen

Zonos wurde mit etwa 200.000 Stunden hauptsächlich englischsprachiger Sprachdaten trainiert, enthält jedoch auch signifikante Anteile an chinesischen, japanischen, französischen, spanischen und deutschen Daten. Das Modell ist in zwei Varianten verfügbar:

Transformer-Modell: Ein reines Transformer-Modell mit 1,6 Milliarden Parametern.

Hybrides Modell: Kombiniert State-Space-Modelle (SSM) mit Transformern und verfügt ebenfalls über 1,6 Milliarden Parameter.

Beide Modelle wurden unter der Apache-2.0-Lizenz veröffentlicht und sind somit frei zugänglich.

Zonos bietet die Möglichkeit, die Sprechgeschwindigkeit, Tonhöhe, Audioqualität und Emotionen wie Freude, Angst, Traurigkeit und Wut zu steuern. Laut Zyphra läuft Zonos auf einer RTX 4090 GPU schneller als in Echtzeit. Das Modell verfügt über eine benutzerfreundliche Gradio-Oberfläche und lässt sich mit Docker einfach installieren und einsetzen.

Quelle: Zyphra

Prompt #1

I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences. Quelle: Zyphra, weitere Beispiele

Zonos

Elevenlabs

Cartesia

Anwendungsbereiche und Ausblick

Die Veröffentlichung von Zonos als Open-Source-Modell könnte die Forschung und Entwicklung im Bereich der Sprachsynthese und Stimmklonung erheblich vorantreiben. Durch die freie Verfügbarkeit können Entwickler und Forscher das Modell in verschiedenen Anwendungen einsetzen, von personalisierten Sprachassistenten bis hin zu automatisierten Übersetzungssystemen.

Zyphra plant, die Entwicklung von Zonos kontinuierlich fortzusetzen und die Modelle weiter zu verbessern. Zukünftige Updates könnten die Unterstützung für weitere Sprachen und die Verbesserung der Audioqualität umfassen. Die Open-Source-Community ist eingeladen, zum Projekt beizutragen und eigene Verbesserungen vorzuschlagen.

AUSBLICK

OpenSource - gut - deutsch?

Mit Zonos-v0.1 stellt Zyphra ein leistungsstarkes Werkzeug für die Sprachsynthese und Stimmklonung zur Verfügung, das durch seine Open-Source-Natur eine breite Anwendung und Weiterentwicklung ermöglicht. Die Kombination aus hoher Audioqualität, Echtzeitfähigkeit und Anpassungsoptionen macht Zonos zu einer vielversprechenden Lösung für verschiedene Anwendungsbereiche in der KI-gestützten Sprachverarbeitung.

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

KURZFASSUNG

Zyphra hat mit Zonos-v0.1 ein Open-Source-Modell für Sprachsynthese und Stimmklonung veröffentlicht, das in wenigen Sekunden eine Stimme klonen kann.
Das Modell nutzt Transformer- und State-Space-Technologien, um natürlich klingende Sprache in mehreren Sprachen zu generieren.
Zonos läuft effizient auf modernen GPUs, bietet Echtzeit-Sprachgenerierung und erlaubt die Anpassung von Tonhöhe, Geschwindigkeit und Emotionen.
Durch die Open-Source-Verfügbarkeit können Entwickler und Forscher das Modell frei nutzen und weiterentwickeln.
Zukünftige Updates sollen die Qualität weiter verbessern und die Unterstützung für weitere Sprachen ausbauen.