Microsoft Paza löst Datenproblem bei KI-Modellen für Afrika

Spezialisierte Versionen von Whisper und Phi-4 senken die Word Error Rate in Tests um über fünfzig Prozent.

Andreas Becker05.02.26 Nano Banana

Kurzfassung Quellen

Microsoft Research veröffentlicht mit Paza neue Benchmarks und KI-Modelle speziell für 29 afrikanische Sprachen.
Der PazaBench-Datensatz korrigiert zahlreiche Fehler in bisherigen Standards und ermöglicht präzisere Leistungsmessungen.
Das feinabgestimmte Modell paza-whisper-large-v3-turbo senkt die Fehlerrate bei der Spracherkennung um über 50 Prozent.
Alle Modelle und Datensätze sind ab sofort als Open Source auf der Plattform Hugging Face verfügbar.

Sprachmodelle funktionieren hervorragend auf Englisch oder Deutsch, scheitern aber oft an Sprachen mit geringer Datenbasis. Microsoft Research reagiert darauf mit dem Projekt Paza und veröffentlicht ab sofort verbesserte Benchmarks sowie spezialisierte Modelle für 29 afrikanische Sprachen auf Hugging Face.

Fokus auf vernachlässigte Sprachen

Moderne KI-Systeme benötigen riesige Mengen an Trainingsdaten. Für sogenannte "Low-Resource Languages", zu denen viele afrikanische Dialekte gehören, existieren diese Daten kaum in ausreichender Qualität. Das führt dazu, dass globale KI-Lösungen in diesen Regionen oft unbrauchbar sind.

Microsoft Research Africa adressiert dieses Ungleichgewicht nun direkt. Mit Paza stellt das Team keine theoretische Arbeit vor, sondern liefert nutzbare Werkzeuge für Entwickler. Der Release umfasst sowohl einen neuen Benchmark-Datensatz als auch speziell feinabgestimmte Versionen bekannter Modelle wie Whisper und Phi-4.

PazaBench setzt auf Qualität vor Quantität

Herzstück der Veröffentlichung ist PazaBench. Dieser Evaluierungsdatensatz deckt 39 Sprachen ab, darunter 29 afrikanische. Anders als bisherige Datensätze beschränkt sich PazaBench nicht auf generische Sätze. Die Daten stammen aus fünf praxisrelevanten Domänen: Landwirtschaft, Finanzen, Gesundheit, Nachrichten und Religion.

Die Grundlage bildete der bekannte FLEURS-102-Datensatz von Google. Microsoft hat diesen jedoch nicht einfach übernommen, sondern durch Muttersprachler massiv überarbeiten lassen.

Viele Transkriptionsfehler und Ungenauigkeiten des Originals wurden korrigiert. Das Ergebnis ist ein verlässlicherer Maßstab, um die Leistung von Spracherkennungsmodellen (ASR) in diesen spezifischen Sprachen wirklich beurteilen zu können.

Quelle: Microsoft

Massive Reduktion der Fehlerraten

Neben den Daten liefert Microsoft auch die passenden Modelle. Besonders hervorzuheben ist paza-whisper-large-v3-turbo. Dieses Modell wurde spezifisch auf den neuen Daten trainiert und zeigt deutliche Verbesserungen gegenüber der Basisversion.

Die Ergebnisse auf dem PazaBench sind messbar. Das Modell erreicht eine Word Error Rate (WER) von 19,3 Prozent. Im Vergleich zum unveränderten Whisper-Modell entspricht dies einer Reduktion der Fehlerquote um rund 52 Prozent.

Zusätzlich veröffentlichte das Team paza-Phi-4-multimodal-instruct. Dieses Modell erweitert die Fähigkeiten über reine Transkription hinaus und ermöglicht multimodale Interaktionen in den unterstützten Sprachen.

Ursprung in der Landwirtschaft

Das Projekt entstand nicht im luftleeren Raum, sondern als Teil von "Project Gecko". Diese Initiative zielt darauf ab, Kleinbauern durch KI-gestützte Beratung zu unterstützen. Apps wie "Farmer.Chat" benötigen zwingend eine präzise Spracherkennung, da viele Nutzer ihre Anfragen mündlich in lokalen Dialekten stellen.

Die neuen Modelle sind ab sofort als Open Source auf Hugging Face verfügbar. Sie bieten Entwicklern die Möglichkeit, Anwendungen zu bauen, die auch außerhalb der westlichen Sprachräume zuverlässig funktionieren.