Google greift nach der Krone der KI-Sprachgenerierung
Ein neues Modell liefert hochwertige Stimmen für über 70 Sprachen.

Google veröffentlicht Gemini 3.1 Flash TTS. Das neue KI-Modell für Sprachgenerierung positioniert sich mit einem Elo-Wert von 1.211 direkt in der weltweiten Spitzenklasse. Es bietet eine exakte Steuerung der Stimmen und unterstützt mehr als 70 Sprachen nativ.
Präzise Regie durch Audio-Tags
Das KI-Modell führt neuartige Audio-Tags ein. Nutzer platzieren diese Textbefehle direkt in ihrem Prompt, um die Sprachausgabe im Detail zu formen. So passen sie Tempo, Tonfall oder regionale Akzente nahtlos an die gewünschte Situation an.
Die Generierung funktioniert dabei ähnlich wie ein Skript für Schauspieler. Entwickler erstellen spezifische Audio-Profile für unterschiedliche Charaktere. Dadurch führt die KI natürliche Dialoge mit mehreren Sprechern, ohne dass die Stimmen ihren zugewiesenen Charakter im Gesprächsverlauf verlieren. Einmal definierte Regieanweisungen lassen sich anschließend als Code exportieren, was die Konsistenz über verschiedene Projekte hinweg sichert.
Quelle: Google
Starke Performance im Benchmark
Auf der Rangliste der Plattform Artificial Analysis belegt Googles Modell aktuell den zweiten Platz. Mit 1.211 Punkten übertrifft das System sogar die starke Konkurrenz von ElevenLabs v3 knapp. Einzig das Modell Inworld TTS 1.5 Max erzielt mit 1215 Punkten ein minimal besseres Ergebnis in der Qualitätsbewertung.
Experten bescheinigen dem Modell ein attraktives Verhältnis von Audioqualität und Betriebskosten. Die Preisstruktur richtet sich primär an professionelle Anwender. Entwickler zahlen in der kostenpflichtigen Stufe 20 US-Dollar für eine Million generierte Ausgabe-Token, während die Texteingabe mit einem US-Dollar pro Million Token zu Buche schlägt. Wer den Batch-Modus nutzt, halbiert diese Kosten.
Quelle: artificialanalysis
Sicherheit und sofortige Verfügbarkeit
Alle generierten Audiodateien enthalten zwingend das SynthID-Wasserzeichen. Dieses kryptografische und nicht hörbare Signal markiert die Inhalte zuverlässig als KI-Produktion.
Die Technologie steht ab sofort für erste Tests im Google AI Studio bereit. Unternehmen binden das Modell über die Gemini-API oder Vertex AI in ihre Infrastruktur ein. Parallel dazu erhalten Workspace-Nutzer direkten Zugriff über den Dienst Google Vids.
