Google greift nach der Krone der KI-Sprachgenerierung

Ein neues Modell liefert hochwertige Stimmen für über 70 Sprachen.

Andreas Becker15.04.26 Nano Banana

Kurzfassung Quellen

Google stellt mit Gemini 3.1 Flash TTS ein neues Modell zur Sprachgenerierung vor, das über 70 Sprachen unterstützt.
Dank neuer Audio-Tags steuern Nutzer das Tempo, den Stil und den Akzent der KI-Stimmen direkt per Texteingabe.
In unabhängigen Benchmarks erreicht das Modell Spitzenwerte und schlägt prominente Konkurrenten wie ElevenLabs.
Alle generierten Sprachdateien werden automatisch mit einem unsichtbaren SynthID-Wasserzeichen versehen.

Google veröffentlicht Gemini 3.1 Flash TTS. Das neue KI-Modell für Sprachgenerierung positioniert sich mit einem Elo-Wert von 1.211 direkt in der weltweiten Spitzenklasse. Es bietet eine exakte Steuerung der Stimmen und unterstützt mehr als 70 Sprachen nativ.

Präzise Regie durch Audio-Tags

Das KI-Modell führt neuartige Audio-Tags ein. Nutzer platzieren diese Textbefehle direkt in ihrem Prompt, um die Sprachausgabe im Detail zu formen. So passen sie Tempo, Tonfall oder regionale Akzente nahtlos an die gewünschte Situation an.

Die Generierung funktioniert dabei ähnlich wie ein Skript für Schauspieler. Entwickler erstellen spezifische Audio-Profile für unterschiedliche Charaktere. Dadurch führt die KI natürliche Dialoge mit mehreren Sprechern, ohne dass die Stimmen ihren zugewiesenen Charakter im Gesprächsverlauf verlieren. Einmal definierte Regieanweisungen lassen sich anschließend als Code exportieren, was die Konsistenz über verschiedene Projekte hinweg sichert.

Quelle: Google

Starke Performance im Benchmark

Auf der Rangliste der Plattform Artificial Analysis belegt Googles Modell aktuell den zweiten Platz. Mit 1.211 Punkten übertrifft das System sogar die starke Konkurrenz von ElevenLabs v3 knapp. Einzig das Modell Inworld TTS 1.5 Max erzielt mit 1215 Punkten ein minimal besseres Ergebnis in der Qualitätsbewertung.

Experten bescheinigen dem Modell ein attraktives Verhältnis von Audioqualität und Betriebskosten. Die Preisstruktur richtet sich primär an professionelle Anwender. Entwickler zahlen in der kostenpflichtigen Stufe 20 US-Dollar für eine Million generierte Ausgabe-Token, während die Texteingabe mit einem US-Dollar pro Million Token zu Buche schlägt. Wer den Batch-Modus nutzt, halbiert diese Kosten.

Quelle: artificialanalysis

Sicherheit und sofortige Verfügbarkeit

Alle generierten Audiodateien enthalten zwingend das SynthID-Wasserzeichen. Dieses kryptografische und nicht hörbare Signal markiert die Inhalte zuverlässig als KI-Produktion.

Die Technologie steht ab sofort für erste Tests im Google AI Studio bereit. Unternehmen binden das Modell über die Gemini-API oder Vertex AI in ihre Infrastruktur ein. Parallel dazu erhalten Workspace-Nutzer direkten Zugriff über den Dienst Google Vids.