Ein Windows Logo in besonderem Style

Phi-4-Reasoning-Vision wertet Benutzeroberflächen und Dokumente aus

Microsoft veröffentlicht ein effizientes KI-System mit 15 Milliarden Parametern. Es bietet Entwicklern starke visuelle und logische Analysefähigkeiten.

Andreas Becker Nano Banana
Ein Windows Logo in besonderem Style

Microsoft hat mit Phi-4-Reasoning-Vision-15B ein neues KI-Modell veröffentlicht. Die Software kombiniert detaillierte Bilderkennung mit logischen Analysefähigkeiten und ist ab sofort als offene Open-Weight-Version für Entwickler frei zugänglich.

Anzeige

Bilder verstehen und logisch einordnen

Bislang beschränkten sich viele kompakte KI-Modelle darauf, Objekte auf Fotos lediglich zu benennen. Das neue System mit 15 Milliarden Parametern ordnet die Bildinhalte hingegen in einen größeren Kontext ein.

Es interpretiert komplexe Diagramme, eingescannte Dokumente oder die Benutzeroberfläche von Software. Die KI verbindet diese visuellen Strukturen mit Textinformationen. Darauf basierend führt sie mehrstufige logische Denkprozesse durch, das sogenannte Reasoning.

So erkennt das Programm beispielsweise Veränderungen in einer Abfolge von Bildern und zieht daraus eigenständig Schlüsse.

Beim Training der Software setzte Microsoft auf eine gezielte Mischung von Daten. Die Entwickler kombinierten Informationen, die logisches Denken erfordern, mit allgemeinen Trainingsdaten. Diese Vorgehensweise sorgt laut den Entwicklern für eine hohe Präzision bei der Auswertung visueller Inhalte, ohne die Effizienz zu beeinträchtigen.

Quelle: Microsoft

Steuerung von Benutzeroberflächen

Ein konkretes Einsatzgebiet ist die Unterstützung bei mathematischen und naturwissenschaftlichen Problemstellungen. Die Software analysiert Graphen oder verschachtelte Formeln und leitet daraus korrekte Lösungswege ab.

Darüber hinaus eignet sich das Modell für Software-Agenten.

Diese digitalen Assistenten können direkt auf grafischen Benutzeroberflächen von Computern oder Smartphones agieren. Ein Programm liest dabei den aktuellen Bildschirminhalt aus, versteht die Anordnung von Schaltflächen oder Textfeldern und entscheidet über den nächsten Klick. In einem Online-Shop wertet die KI beispielsweise Produktbilder und Menüs in Echtzeit aus, um selbstständig eine bestimmte Aktion durchzuführen.

Quelle: Microsoft

Effizienz und offene Verfügbarkeit

Trotz der umfangreichen Fähigkeiten bleibt der Rechenaufwand vergleichsweise gering. Das Modell bietet Entwicklern ein ausgewogenes Verhältnis zwischen hoher Genauigkeit und niedrigen Betriebskosten. Durch die schnelle Verarbeitung der Daten lassen sich interaktive Anwendungen mit sehr kurzen Reaktionszeiten umsetzen.

Interessierte laden das System ab sofort herunter. Microsoft stellt die Dateien über die Plattformen Microsoft Foundry, Hugging Face und GitHub zur Verfügung. Dies ermöglicht eine lokale Nutzung in eigenen Projekten, ohne permanent auf teure Cloud-Anbindungen angewiesen zu sein. Entwickler integrieren die Technik so direkt und datenschutzfreundlich in ihre bestehenden Arbeitsabläufe.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.