MIT bringt KI-Modellen das Lesen von Diagrammen bei

Dank ChartNet analysieren kompakte Open-Source-Modelle nun komplexe Daten besser als kommerzielle Giganten.

Andreas Becker03.06.26 GPT-Images-2.0

Kurzfassung Quellen

Forscher des MIT und von IBM haben den Datensatz ChartNet mit 1,5 Millionen synthetischen Diagrammen vorgestellt.
Die Sammlung dient dem gezielten Training von KI-Modellen, um komplexe visuelle und numerische Daten in Grafiken besser zu verstehen.
Tests zeigen, dass kompakte Open-Source-Modelle nach dem Training mit ChartNet kommerzielle Systeme wie GPT-4o übertreffen.
Die Entwicklung erleichtert vor allem kleinen Unternehmen die automatisierte Auswertung von Geschäftsberichten.

Große Sprachmodelle scheitern oft daran, komplexe Diagramme in Geschäftsberichten oder wissenschaftlichen Arbeiten korrekt zu interpretieren. Forscher des MIT und IBM Research lösen dieses Problem nun mit ChartNet, einem Trainingsdatensatz aus 1,5 Millionen synthetisch erzeugten Diagrammen.

Synthetische Daten als Lösung

Bisher fehlte es der KI-Forschung an hochwertigen Trainingsdaten, um visuelle, numerische und linguistische Informationen aus Grafiken verlässlich zu verknüpfen. Bestehende Sammlungen aus dem Internet waren oft unvollständig oder enthielten nicht die nötigen Hintergrundinformationen. Das Team um Jovana Kondic vom MIT wählte daher einen anderen Ansatz und übersetzte bestehende Diagramme zunächst in ausführbaren Programmcode.

Dieser Code wurde anschließend systematisch abgewandelt, um völlig neue visuelle Darstellungen zu erzeugen. Das Resultat dieser Methode sind 1,5 Millionen Beispiele, die insgesamt 24 unterschiedliche Diagrammtypen und sechs verschiedene Programmierbibliotheken abdecken.

Jeder Datensatz enthält neben dem eigentlichen Bild auch den zugrunde liegenden Code, eine Datentabelle sowie textliche Beschreibungen. Ein automatisierter Qualitätsprozess stellt dabei sicher, dass die erzeugten Grafiken fehlerfrei gerendert werden und die Informationen inhaltlich korrekt bleiben.

Quelle: MIT

Open-Source schlägt kommerzielle Giganten

Die Forscher trainierten verschiedene kompakte Open-Source-Modelle mit der neuen Datenbank. Ein Beispiel dafür ist die Granite-Vision-Serie von IBM, die durch das gezielte Training ihre Fähigkeiten bei der Datenextraktion und der Beantwortung spezifischer Fragen stark verbesserte.

Das Ergebnis der Tests liefert klare Zahlen. Die vergleichsweise kleinen Open-Source-Modelle übertrafen nach dem Training mit ChartNet wesentlich größere, kommerzielle Systeme. In den Benchmarks schnitten sie bei der Diagrammanalyse sogar besser ab als Modelle in der Größenordnung eines GPT-5.

Diese Entwicklung senkt die Hürden für den produktiven Einsatz von KI im Mittelstand. Kleinere Firmen mit begrenzten Budgets können durch die frei zugänglichen Modelle künftig Finanzberichte oder Markttrends effizient analysieren, ohne teure Rechenressourcen anmieten zu müssen. Die Ergebnisse belegen, dass Technik oft wichtiger ist als die reine Größe eines KI-Modells.

MIT bringt KI-Modellen das Lesen von Diagrammen bei

Synthetische Daten als Lösung

Quelle: MIT

Open-Source schlägt kommerzielle Giganten

Anzeige

Kimi K3: Das Ende der amerikanischen KI-Dominanz

Soofie S: Ein gutes deutsches KI-Modell

OpenAI GPT-Red: KI kämpft gegen KI

Ex-OpenAI-Chefin veröffentlicht anpassbares Open-Weight-Modell Inkling

GPT-5.6 Tutorial: Modell und Thinking-Stufe richtig wählen

ChatGPT bekommt endlich eine echte Suchfunktion

Ex-OpenAI-Chefin veröffentlicht anpassbares Open-Weight-Modell Inkling

Südkorea verschenkt KI an alle Bürger

Kimi K3: Das Ende der amerikanischen KI-Dominanz

OpenAI bringt eigene »Tastatur« für ChatGPT

10 ChatGPT Prompts: Schonungslose Selbst-Analyse per KI-Karikatur

3D Modelle mit KI für 3D Druck und Gaming - Meshy AI Tutorial 2025

Claude-Agenten besser und effektiver nutzen

ElevenLabs Test 2026: Voice, Agenten, Kosten und Tipps

Seedance 2.0 Test 2026: Verfügbarkeit, Benchmarks, Tipps

ElevenLabs Agents Test: Automatisierter Kundensupport war nie einfacher

MIT bringt KI-Modellen das Lesen von Diagrammen bei

Synthetische Daten als Lösung

Quelle: MIT

Open-Source schlägt kommerzielle Giganten

Anzeige

Weitere aktuelle Artikel

KI-Wissen mit menschlicher Note