Microsoft MAI Voice 2 spricht mit Emotionen

Die Software vertont Texte in verschiedenen Sprachen und Stimmungen. Ein Wechsel der Sprache mitten im Satz ist ebenfalls möglich.

Silas Talon03.06.26 GPT-Images-2.0

Kurzfassung Quellen

Microsoft hat das neue Text-to-Speech-Modell MAI-Voice-2 mit Unterstützung für 15 Sprachen veröffentlicht.
Die Software ermöglicht eine detaillierte Steuerung von Emotionen und fließende Sprachwechsel innerhalb eines gesprochenen Satzes.
Entwickler können bestehende Stimmen mit kurzen Audioclips sicher klonen, was durch strenge Lizenzvorgaben vor Missbrauch geschützt wird.
Das Modell ist als öffentliche Vorschau in der Azure Foundry verfügbar und wird in VSCode integriert.

Microsoft veröffentlicht mit MAI-Voice-2 ein neues KI-Modell für die Sprachsynthese, das Texte in 15 verschiedenen Sprachen vertont. Die Software bietet im Vergleich zum Vorgänger eine deutlich detailliertere emotionale Kontrolle und fließende Sprachwechsel innerhalb eines Satzes.

Mehr Sprachen und emotionale Tiefe

Das zuvor rein englischsprachige System unterstützt nun eine breite Palette an Sprachen, darunter Deutsch, Französisch und Spanisch. Dabei behält das KI-Modell die natürliche Betonung bei und erlaubt eine präzise Steuerung der Ausdrucksweise. Entwickler können über spezielle Tags Emotionen wie Traurigkeit oder Aufregung gezielt ansteuern.

Selbst Flüstern lässt sich über diese Steuerungselemente realisieren. In internen Tests des Entwicklerteams zogen Hörer die neue Version in 72 Prozent der Fälle dem Vorgänger MAI-Voice-1 vor.

Deutsche Stimme mit Stimmung

Stimmen klonen und Sprachen mischen

Eine zentrale Neuerung ist die Möglichkeit, bestehende Stimmen mit einem kurzen Audioclip von fünf bis 60 Sekunden zu reproduzieren. Ein langwieriges Training des Modells ist dafür nicht mehr notwendig. Die geklonte Stimme bleibt auch bei längeren Formaten wie Hörbüchern oder Podcasts stabil und behält ihre spezifischen Eigenheiten bei.

Zusätzlich beherrscht die Software das sogenannte Code-Switching. Das bedeutet, das KI-Modell wechselt innerhalb eines gesprochenen Satzes fließend zwischen zwei Sprachen. Microsoft hebt hierbei besonders Kombinationen wie Hindi und Englisch oder Spanisch und Englisch hervor, um natürliche Gesprächsdynamiken abzubilden.

Quelle: Microsoft

Sicherheitsvorkehrungen und Verfügbarkeit

Um Missbrauch durch unerlaubtes Klonen zu verhindern, greifen systemweite Schutzmechanismen. Eine Synthese erfordert zwingend eine autorisierte Lizenz, wodurch nicht genehmigte Kopien fremder Stimmen technisch blockiert werden. Entwickler müssen sich für den Zugang zu dieser Funktion explizit bewerben.

Das Text-to-Speech-Modell steht derzeit als öffentliche Vorschau in der Azure Foundry und im Playground bereit. Weitere Beispiele kann man sich zudem auf der offiziellen Seite anhören.