DeepL bringt gesprochene Echtzeit-Übersetzung

Teilnehmer hören die Audioausgabe bei Konferenzen künftig direkt in ihrer Muttersprache.

Andreas Becker17.04.26 Nano Banana

Kurzfassung Quellen

DeepL erweitert das eigene Angebot um eine direkte Audio-Übersetzung namens »Voice-to-Voice«.
Die Technologie integriert sich als Add-on in Microsoft Teams sowie Zoom und übersetzt Meetings in Echtzeit.
Zusätzlich stehen Funktionen für mobile Gespräche, Gruppenchats per QR-Code und eine API für Geschäftskunden bereit.
Das System unterstützt zum Start über 40 Sprachen und berücksichtigt ab Mai auch individuelle Firmen-Glossare.

DeepL erweitert das eigene KI-Portfolio um eine Echtzeit-Sprachübersetzung mit echter Audioausgabe. Das neue System »Voice-to-Voice« übersetzt gesprochene Sprache verzögerungsfrei für virtuelle Meetings, persönliche Gespräche und kundennahe Anwendungen.

Integration in Videokonferenzen

Das Modul für Meetings klinkt sich als Add-on direkt in Microsoft Teams und Zoom ein. Teilnehmer sprechen während der Videokonferenz in ihrer jeweiligen Muttersprache. Das KI-Modell verarbeitet die Tonspur und gibt sie für die anderen Zuhörer in deren gewählter Zielsprache als hörbares Audio aus.

Für dieses Programm plant der Entwickler im Juni einen Early Access, eine entsprechende Warteliste existiert bereits. Eine weitere Funktion namens »Voice for Conversations« ist unabhängig davon schon jetzt plattformübergreifend für Mobilgeräte und das Web nutzbar.

Gruppenchats und Fachbegriffe

Für Schulungen oder Workshops bietet das Unternehmen ab dem 30. April erweiterte Gruppenkonversationen an. Nutzer treten diesen mehrsprachigen Sitzungen unkompliziert per QR-Code über ihr Smartphone bei.

Eine bekannte technische Herausforderung bei der automatisierten Übersetzung bilden Eigennamen oder Branchenbegriffe. Hierfür integriert der Anbieter ab dem 7. Mai bestehende Glossare in das System. Fachbegriffe oder Produktnamen erkennt die Software dadurch in Echtzeit präzise und schließt diese gezielt von der Übersetzung aus.

Technik und Programmierschnittstelle

Unter der Haube arbeitet die Architektur aktuell noch mit einer klassischen Verarbeitungskette. Das Audiosignal wird in Text umgewandelt, übersetzt und anschließend per Text-to-Speech wieder synthetisiert. Zukünftig plant das Entwicklerteam jedoch den Sprung auf ein direktes End-to-End-Modell.

Geschäftskunden können die Technologie über eine Voice-to-Voice-API in eigene Workflows wie Support-Center einbinden. Das System verarbeitet über 40 Sprachen, darunter sämtliche 24 offiziellen EU-Sprachen sowie Vietnamesisch, Arabisch und Thai. Die Registrierung für die Programmierschnittstelle ist für Unternehmen ab sofort möglich.