Mistral veröffentlicht neues KI Modell für Dokumente

Das OCR 4 System analysiert PDFs rasend schnell. Es ist lokal nutzbar und schlägt viele Konkurrenten beim Preis.

Andreas Becker23.06.26 GPT-Images-2.0

Kurzfassung Quellen

Mistral AI hat das KI-Modell OCR 4 zur strukturierten Analyse von Dokumenten wie PDFs oder Word-Dateien veröffentlicht.
Das System extrahiert nicht nur Text, sondern erkennt auch das Layout, Tabellen und mathematische Formeln präzise.
In ersten Tests arbeitet das Modell deutlich schneller und günstiger als vergleichbare Lösungen der Konkurrenz.
Unternehmen können die Software über Cloud-Anbieter nutzen oder für maximalen Datenschutz lokal auf eigenen Servern betreiben.

Mistral AI hat das spezialisierte KI-Modell Mistral OCR 4 zur Analyse von Dokumenten veröffentlicht. Neben reinem Text liefert es Positionsdaten, Blockklassifizierungen und Konfidenzwerte für 170 Sprachen. Es lässt sich für datenschutzkonforme Anwendungen vollständig lokal in einem Container betreiben.

Präzise Strukturierung statt reiner Textextraktion

Das neue Modell verarbeitet gängige Unternehmensformate wie PDF, DOC, PPT und OpenDocument. Frühere Generationen beschränkten sich meist darauf, eine Seite in Text und Tabellen zu konvertieren. Mistral OCR 4 gibt stattdessen eine strukturierte Repräsentation des gesamten Dokuments aus.

Dazu gehören sogenannte Bounding Boxes, welche die genaue Position von Textelementen lokalisieren. Das Modell ordnet Textabschnitte bestimmten Typen wie Titeln, Tabellen, mathematischen Gleichungen oder Signaturen zu. Inline-Konfidenzwerte bewerten die Genauigkeit pro Seite und Wort.

Diese strukturierten Blöcke verbessern die semantische Segmentierung in RAG-Anwendungen. KI-Agenten erhalten dadurch verlässliche Grundlagen, um Aufgaben wie das Ausfüllen von Formularen, die Rechnungsverarbeitung oder Compliance-Prüfungen selbstständig auszuführen.

Hohe Geschwindigkeit bei geringeren Kosten

Unabhängige Prüfer bevorzugen das Modell in Blindtests vor konkurrierenden Systemen zur Dokumenten-Analyse, wobei die durchschnittliche Zustimmungsrate bei 72 Prozent liegt. Beim öffentlichen Benchmark OlmOCRBench erreicht es einen Wert von 85,20 Punkten.

In ersten Praxistests mit finanzspezifischen Datensätzen lieferte das Modell eine vergleichbare Genauigkeit wie agentenbasierte Parser. Die Latenz fiel jedoch 17-mal geringer aus, während die Kosten um das Achtfache sanken. Andere Anwender berichten von einer Vervierfachung der Verarbeitungsgeschwindigkeit pro Seite im Vergleich zu ihren bisherigen Anbietern.

Mistral AI verweist darauf, dass automatisierte Vergleiche wie OmniDocBench mit einem Score von 93,07 methodische Schwächen besitzen. Oft werden korrekte Ausgaben als Fehler gewertet, wenn die Vergleichsdaten fehlerhaft sind oder mathematische Formeln in LaTeX visuell identisch, aber syntaktisch abweichend formatiert sind. Auch mehrspaltige Texte führen bei den Messungen häufig zu unberechtigten Punktabzügen, da die Lesereihenfolge starr abgeglichen wird.

Quelle: Mistral

API-Optionen und Preise für Unternehmen

Der Zugriff erfolgt über eine einheitliche API-Schnittstelle. Für komplexere Datenstrukturen lässt sich die Abfrage um den Modus »Document AI« erweitern. In diesem Fall leitet die Schnittstelle die Daten an das Modell mistral-small-2603 weiter, um die Inhalte direkt in ein vordefiniertes JSON-Schema zu gießen.

Die Nutzung der reinen Textextraktion kostet 4 US-Dollar pro 1.000 Seiten. Bei der Verwendung der »Batch-API« sinkt der Preis durch einen Rabatt von 50 Prozent auf 2 US-Dollar pro 1.000 Seiten. Für die erweiterte Option »Document AI« fallen 5 US-Dollar pro 1.000 Seiten an.

Neben dem Cloud-Zugriff über Mistral Studio, Amazon SageMaker und Microsoft Foundry bietet der Entwickler für Firmenkunden eine Option zum Self-Hosting an. Damit verbleiben sensible Dokumentendaten vollständig in der eigenen IT-Infrastruktur.