Ein Bayer spricht mit einem Azteken

DeepL bringt gesprochene Echtzeit-Übersetzung

Teilnehmer hören die Audioausgabe bei Konferenzen künftig direkt in ihrer Muttersprache.

Andreas Becker Nano Banana
Ein Bayer spricht mit einem Azteken

DeepL erweitert das eigene KI-Portfolio um eine Echtzeit-Sprachübersetzung mit echter Audioausgabe. Das neue System »Voice-to-Voice« übersetzt gesprochene Sprache verzögerungsfrei für virtuelle Meetings, persönliche Gespräche und kundennahe Anwendungen.

Integration in Videokonferenzen

Das Modul für Meetings klinkt sich als Add-on direkt in Microsoft Teams und Zoom ein. Teilnehmer sprechen während der Videokonferenz in ihrer jeweiligen Muttersprache. Das KI-Modell verarbeitet die Tonspur und gibt sie für die anderen Zuhörer in deren gewählter Zielsprache als hörbares Audio aus.

Für dieses Programm plant der Entwickler im Juni einen Early Access, eine entsprechende Warteliste existiert bereits. Eine weitere Funktion namens »Voice for Conversations« ist unabhängig davon schon jetzt plattformübergreifend für Mobilgeräte und das Web nutzbar.

Anzeige

Gruppenchats und Fachbegriffe

Für Schulungen oder Workshops bietet das Unternehmen ab dem 30. April erweiterte Gruppenkonversationen an. Nutzer treten diesen mehrsprachigen Sitzungen unkompliziert per QR-Code über ihr Smartphone bei.

Eine bekannte technische Herausforderung bei der automatisierten Übersetzung bilden Eigennamen oder Branchenbegriffe. Hierfür integriert der Anbieter ab dem 7. Mai bestehende Glossare in das System. Fachbegriffe oder Produktnamen erkennt die Software dadurch in Echtzeit präzise und schließt diese gezielt von der Übersetzung aus.

Technik und Programmierschnittstelle

Unter der Haube arbeitet die Architektur aktuell noch mit einer klassischen Verarbeitungskette. Das Audiosignal wird in Text umgewandelt, übersetzt und anschließend per Text-to-Speech wieder synthetisiert. Zukünftig plant das Entwicklerteam jedoch den Sprung auf ein direktes End-to-End-Modell.

Geschäftskunden können die Technologie über eine Voice-to-Voice-API in eigene Workflows wie Support-Center einbinden. Das System verarbeitet über 40 Sprachen, darunter sämtliche 24 offiziellen EU-Sprachen sowie Vietnamesisch, Arabisch und Thai. Die Registrierung für die Programmierschnittstelle ist für Unternehmen ab sofort möglich.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.