MIT bringt KI-Modellen das Lesen von Diagrammen bei
Dank ChartNet analysieren kompakte Open-Source-Modelle nun komplexe Daten besser als kommerzielle Giganten.

Große Sprachmodelle scheitern oft daran, komplexe Diagramme in Geschäftsberichten oder wissenschaftlichen Arbeiten korrekt zu interpretieren. Forscher des MIT und IBM Research lösen dieses Problem nun mit ChartNet, einem Trainingsdatensatz aus 1,5 Millionen synthetisch erzeugten Diagrammen.
Synthetische Daten als Lösung
Bisher fehlte es der KI-Forschung an hochwertigen Trainingsdaten, um visuelle, numerische und linguistische Informationen aus Grafiken verlässlich zu verknüpfen. Bestehende Sammlungen aus dem Internet waren oft unvollständig oder enthielten nicht die nötigen Hintergrundinformationen. Das Team um Jovana Kondic vom MIT wählte daher einen anderen Ansatz und übersetzte bestehende Diagramme zunächst in ausführbaren Programmcode.
Dieser Code wurde anschließend systematisch abgewandelt, um völlig neue visuelle Darstellungen zu erzeugen. Das Resultat dieser Methode sind 1,5 Millionen Beispiele, die insgesamt 24 unterschiedliche Diagrammtypen und sechs verschiedene Programmierbibliotheken abdecken.
Jeder Datensatz enthält neben dem eigentlichen Bild auch den zugrunde liegenden Code, eine Datentabelle sowie textliche Beschreibungen. Ein automatisierter Qualitätsprozess stellt dabei sicher, dass die erzeugten Grafiken fehlerfrei gerendert werden und die Informationen inhaltlich korrekt bleiben.
Quelle: MIT
Open-Source schlägt kommerzielle Giganten
Die Forscher trainierten verschiedene kompakte Open-Source-Modelle mit der neuen Datenbank. Ein Beispiel dafür ist die Granite-Vision-Serie von IBM, die durch das gezielte Training ihre Fähigkeiten bei der Datenextraktion und der Beantwortung spezifischer Fragen stark verbesserte.
Das Ergebnis der Tests liefert klare Zahlen. Die vergleichsweise kleinen Open-Source-Modelle übertrafen nach dem Training mit ChartNet wesentlich größere, kommerzielle Systeme. In den Benchmarks schnitten sie bei der Diagrammanalyse sogar besser ab als Modelle in der Größenordnung eines GPT-5.
Diese Entwicklung senkt die Hürden für den produktiven Einsatz von KI im Mittelstand. Kleinere Firmen mit begrenzten Budgets können durch die frei zugänglichen Modelle künftig Finanzberichte oder Markttrends effizient analysieren, ohne teure Rechenressourcen anmieten zu müssen. Die Ergebnisse belegen, dass Technik oft wichtiger ist als die reine Größe eines KI-Modells.
