Microsoft veröffentlicht 3 starke neue KI-Modelle
MAI-Transcribe-1 liefert Spitzenwerte und wird flankiert von MAI-Voice-1 und MAI-Image-2.

Microsoft veröffentlicht drei neue hauseigene KI-Modelle. Das Highlight bildet MAI-Transcribe-1. Dieses Speech-to-Text-Modell lässt die etablierte Konkurrenz bei der Transkription von Sprache in Text in puncto Genauigkeit über zahlreiche Sprachen hinweg deutlich hinter sich.
Präzision bei der Worterkennung
Bei der maschinellen Spracherkennung gilt die Word Error Rate als der entscheidende Benchmark. MAI-Transcribe-1 erreicht hierbei über 25 getestete Sprachen hinweg einen durchschnittlichen Fehlerwert von lediglich 3,9 Prozent. Damit setzt sich das Modell direkt an die Leistungsspitze des aktuellen Testfeldes.
Quelle: Microsoft
Die direkte Konkurrenz rangiert messbar dahinter. GPT-Transcribe kommt im selben Szenario auf 4,2 Prozent, knapp gefolgt von Scribe v2 mit 4,3 Prozent. Gemini 3.1 Flash verzeichnet 4,9 Prozent. Das weitverbreitete Whisper-large-v3 bildet mit einer Fehlerquote von 7,6 Prozent einen deutlichen Abstand zur Spitze.
Die Stärke von MAI-Transcribe-1 liegt in der konstanten Leistung. Die Benchmarks zeigen eine hohe Zuverlässigkeit quer durch verschiedene Sprachen und Dialekte, selbst bei störenden Hintergrundgeräuschen. Für die Nutzung dieses KI-Modells berechnet der Konzern 0,36 US-Dollar pro verarbeiteter Stunde Audiomaterial.
Quelle: Microsoft
Sprachsynthese und Bildgenerierung ergänzen das Line-up
Neben der Transkription umfasst das neue Portfolio das Modell MAI-Voice-1 für die Sprachsynthese. Es generiert aus Text realistische Sprachausgaben und benötigt für 60 Sekunden Audio nur eine Sekunde Rechenzeit auf einer einzelnen GPU. Entwickler zahlen für diesen Dienst 22 US-Dollar pro einer Million Zeichen. Die Funktionen erlauben zudem das Klonen von Stimmen anhand kurzer Audioschnipsel.
Quelle: Microsoft
Den visuellen Bereich bedient fortan MAI-Image-2. Dieses Text-to-Image-Modell platziert sich in ersten Auswertungen direkt auf dem dritten Platz der Arena-Bestenlisten. Die Preisstruktur startet bei 5 US-Dollar für eine Million Tokens bei der reinen Texteingabe. Die eigentliche Bildausgabe kostet 33 US-Dollar pro einer Million Tokens.
Alle drei Modelle stehen Entwicklern ab sofort über die Microsoft Foundry bereit. Für erste Versuche bietet der MAI Playground eine direkte Testumgebung. Im Endkundenbereich fließen die neuen Fähigkeiten schrittweise in bestehende Produkte wie Copilot Voice und Teams ein.

