Ein Microsoft Roboter mit 3 neuen Modellen

Microsoft veröffentlicht 3 starke neue KI-Modelle

MAI-Transcribe-1 liefert Spitzenwerte und wird flankiert von MAI-Voice-1 und MAI-Image-2.

Andreas Becker02.04.26 Nano Banana

Kurzfassung Quellen

Microsoft hat drei neue hauseigene KI-Modelle für Sprache und Bild vorgestellt.
Das Modell MAI-Transcribe-1 erreicht bei der Spracherkennung die niedrigste Fehlerquote aller getesteten Wettbewerber.
MAI-Voice-1 generiert Sprache in Echtzeit, während MAI-Image-2 die Bildgenerierung übernimmt.
Alle Modelle stehen ab sofort über die Microsoft Foundry für Entwickler bereit.

Microsoft veröffentlicht drei neue hauseigene KI-Modelle. Das Highlight bildet MAI-Transcribe-1. Dieses Speech-to-Text-Modell lässt die etablierte Konkurrenz bei der Transkription von Sprache in Text in puncto Genauigkeit über zahlreiche Sprachen hinweg deutlich hinter sich.

Präzision bei der Worterkennung

Bei der maschinellen Spracherkennung gilt die Word Error Rate als der entscheidende Benchmark. MAI-Transcribe-1 erreicht hierbei über 25 getestete Sprachen hinweg einen durchschnittlichen Fehlerwert von lediglich 3,9 Prozent. Damit setzt sich das Modell direkt an die Leistungsspitze des aktuellen Testfeldes.

Quelle: Microsoft

Die direkte Konkurrenz rangiert messbar dahinter. GPT-Transcribe kommt im selben Szenario auf 4,2 Prozent, knapp gefolgt von Scribe v2 mit 4,3 Prozent. Gemini 3.1 Flash verzeichnet 4,9 Prozent. Das weitverbreitete Whisper-large-v3 bildet mit einer Fehlerquote von 7,6 Prozent einen deutlichen Abstand zur Spitze.

Die Stärke von MAI-Transcribe-1 liegt in der konstanten Leistung. Die Benchmarks zeigen eine hohe Zuverlässigkeit quer durch verschiedene Sprachen und Dialekte, selbst bei störenden Hintergrundgeräuschen. Für die Nutzung dieses KI-Modells berechnet der Konzern 0,36 US-Dollar pro verarbeiteter Stunde Audiomaterial.

Quelle: Microsoft

Sprachsynthese und Bildgenerierung ergänzen das Line-up

Neben der Transkription umfasst das neue Portfolio das Modell MAI-Voice-1 für die Sprachsynthese. Es generiert aus Text realistische Sprachausgaben und benötigt für 60 Sekunden Audio nur eine Sekunde Rechenzeit auf einer einzelnen GPU. Entwickler zahlen für diesen Dienst 22 US-Dollar pro einer Million Zeichen. Die Funktionen erlauben zudem das Klonen von Stimmen anhand kurzer Audioschnipsel.

Quelle: Microsoft

Den visuellen Bereich bedient fortan MAI-Image-2. Dieses Text-to-Image-Modell platziert sich in ersten Auswertungen direkt auf dem dritten Platz der Arena-Bestenlisten. Die Preisstruktur startet bei 5 US-Dollar für eine Million Tokens bei der reinen Texteingabe. Die eigentliche Bildausgabe kostet 33 US-Dollar pro einer Million Tokens.

Alle drei Modelle stehen Entwicklern ab sofort über die Microsoft Foundry bereit. Für erste Versuche bietet der MAI Playground eine direkte Testumgebung. Im Endkundenbereich fließen die neuen Fähigkeiten schrittweise in bestehende Produkte wie Copilot Voice und Teams ein.