Ein Fahrgast ruft den Fahrer an

Google bringt Live Translate mit Gemini 3.5

Das Audiomodell wandelt gesprochene Sprache sofort und flüssig in über 70 Sprachen um. Meet und Android profitieren direkt.

Andreas Becker Google
Ein Fahrgast ruft den Fahrer an

Google hat mit Gemini 3.5 Live Translate ein neues KI-Audiomodell für die nahtlose Sprachübersetzung veröffentlicht. Das Modell verarbeitet Audiosignale kontinuierlich und übersetzt in über 70 Sprachen, ohne auf das Ende eines Satzes warten zu müssen. Dabei bleiben die natürliche Betonung, das Tempo und die Tonhöhe des Sprechers in der generierten Ausgabe erhalten.

Kontinuierlicher Datenfluss statt Wartepausen

Bisherige Systeme arbeiteten oft rundenbasiert und warteten auf das Satzende des Sprechers. Gemini 3.5 Live Translate generiert die Sprachausgabe stattdessen fortlaufend. Das KI-Modell balanciert zwischen dem Warten auf ausreichenden Kontext und einer schnellen Übersetzung, sodass es nur wenige Sekunden hinter dem Original zurückbleibt und unnatürliche Pausen vermeidet.

Die technische Basis dafür bildet erstaunlichweise das Modell Gemini 3 Pro und nicht Gemini 3.5. Die neue Audio-Variante verarbeitet Eingaben mit einem Kontextfenster von bis zu 128.000 Token. Die strukturierte Ausgabe erfolgt wahlweise als Audio oder Text mit einem Limit von bis zu 64.000 Token.

Anzeige

Neue Funktionen für Google Meet und Smartphones

Google integriert das KI-Modell schrittweise in seine eigenen Dienste. Für ausgewählte Geschäftskunden startet diesen Monat eine private Vorschau in Google Meet, in der Anwender in über 2000 Sprachkombinationen kommunizieren können. Ein breiterer Rollout für die Videokonferenz-Software ist für den späteren Jahresverlauf geplant.

Parallel dazu erhält die Google Translate App für Android und iOS weltweit ein Update. Verbinden Anwender ihre Kopfhörer, liefert die Software eine nahtlose Übersetzung der Umgebung. Android-Nutzer erhalten zusätzlich einen neuen Hörmodus: Halten sie das Smartphone wie bei einem Telefonat an das Ohr, wird die übersetzte Audiospur diskret über die Hörmuschel ausgegeben.

Schnittstellen für Entwickler und Sicherheitsmaßnahmen

Entwickler greifen über die Gemini Live API oder das Google AI Studio auf eine öffentliche Vorschau-Version zu. Dienstleister wie LiveKit oder Pipecat integrieren das Modell bereits in ihre Infrastruktur, während der Fahrdienst Grab die Technologie nutzt, um die monatlich zehn Millionen Sprachanrufe zwischen Fahrern und Fahrgästen zu übersetzen.

Alle generierten Audioinhalte versieht Google mit SynthID. Dieses für Menschen nicht hörbare Wasserzeichen soll die maschinelle Erkennung von KI-generierten Inhalten sicherstellen.

Abschließend dokumentiert Google in der technischen Beschreibung einige bekannte Einschränkungen des Modells. Bei längeren Pausen kann das System die generierte Stimme wechseln oder bei schnellen Sprecherwechseln auf einer einzelnen Stimme stehen bleiben. Zudem können starke Akzente oder laute Hintergrundgeräusche zu hörbaren Artefakten in der Übersetzung führen.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.