Ein Roboter untersucht ein Diagramm

MIT bringt KI-Modellen das Lesen von Diagrammen bei

Dank ChartNet analysieren kompakte Open-Source-Modelle nun komplexe Daten besser als kommerzielle Giganten.

Andreas Becker GPT-Images-2.0
Ein Roboter untersucht ein Diagramm

Große Sprachmodelle scheitern oft daran, komplexe Diagramme in Geschäftsberichten oder wissenschaftlichen Arbeiten korrekt zu interpretieren. Forscher des MIT und IBM Research lösen dieses Problem nun mit ChartNet, einem Trainingsdatensatz aus 1,5 Millionen synthetisch erzeugten Diagrammen.

Synthetische Daten als Lösung

Bisher fehlte es der KI-Forschung an hochwertigen Trainingsdaten, um visuelle, numerische und linguistische Informationen aus Grafiken verlässlich zu verknüpfen. Bestehende Sammlungen aus dem Internet waren oft unvollständig oder enthielten nicht die nötigen Hintergrundinformationen. Das Team um Jovana Kondic vom MIT wählte daher einen anderen Ansatz und übersetzte bestehende Diagramme zunächst in ausführbaren Programmcode.

Dieser Code wurde anschließend systematisch abgewandelt, um völlig neue visuelle Darstellungen zu erzeugen. Das Resultat dieser Methode sind 1,5 Millionen Beispiele, die insgesamt 24 unterschiedliche Diagrammtypen und sechs verschiedene Programmierbibliotheken abdecken.

Jeder Datensatz enthält neben dem eigentlichen Bild auch den zugrunde liegenden Code, eine Datentabelle sowie textliche Beschreibungen. Ein automatisierter Qualitätsprozess stellt dabei sicher, dass die erzeugten Grafiken fehlerfrei gerendert werden und die Informationen inhaltlich korrekt bleiben.

Quelle: MIT

Open-Source schlägt kommerzielle Giganten

Die Forscher trainierten verschiedene kompakte Open-Source-Modelle mit der neuen Datenbank. Ein Beispiel dafür ist die Granite-Vision-Serie von IBM, die durch das gezielte Training ihre Fähigkeiten bei der Datenextraktion und der Beantwortung spezifischer Fragen stark verbesserte.

Das Ergebnis der Tests liefert klare Zahlen. Die vergleichsweise kleinen Open-Source-Modelle übertrafen nach dem Training mit ChartNet wesentlich größere, kommerzielle Systeme. In den Benchmarks schnitten sie bei der Diagrammanalyse sogar besser ab als Modelle in der Größenordnung eines GPT-5.

Diese Entwicklung senkt die Hürden für den produktiven Einsatz von KI im Mittelstand. Kleinere Firmen mit begrenzten Budgets können durch die frei zugänglichen Modelle künftig Finanzberichte oder Markttrends effizient analysieren, ohne teure Rechenressourcen anmieten zu müssen. Die Ergebnisse belegen, dass Technik oft wichtiger ist als die reine Größe eines KI-Modells.

Anzeige

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.