Google PaperBanana erstellt wissenschaftliche Diagramme automatisch für Forscher
Das Multi-Agenten-System nutzt Gemini 3 Pro und Nano Banana, um komplexe Abbildungen auf NeurIPS-Niveau zu generieren.

Wissenschaftliche Paper schreiben sich dank KI fast von selbst, doch bei komplexen Abbildungen scheiterten die Modelle bislang oft an der Präzision. Das ändert sich jetzt: Google Cloud AI Research und die Peking University stellen mit PaperBanana ein Multi-Agenten-System vor, das akademische Diagramme und Plots auf NeurIPS-Niveau automatisiert.
Anzeige
Schluss mit "Text-zu-Matsch"
Jeder, der schon einmal versucht hat, mit Nano Banana oder GPT-Image ein exaktes Ablaufdiagramm einer Software-Architektur zu erstellen, kennt das Problem: Die Bilder sehen auf den ersten Blick beeindruckend aus, doch bei genauerem Hinsehen offenbart sich das Chaos. Textbausteine sind unleserlich, Verbindungslinien führen ins Leere und die logische Struktur hat mit der Realität wenig zu tun. Für die Wissenschaft, wo Präzision die wichtigste Währung ist, waren generative Bild-KI-Modelle daher bisher kaum nutzbar.
PaperBanana greift genau dieses Problem an. Das System ist kein simpler Bildgenerator, sondern ein orchestrales Framework, das den Prozess eines menschlichen Designers emuliert. Anstatt einen Prompt direkt in Pixel umzuwandeln, zerlegt die Software die Aufgabe in logische Teilschritte. Das Ziel ist ambitioniert: Die KI soll Diagramme erzeugen, die ohne weitere Bearbeitung in Top-Publikationen wie denen der NeurIPS-Konferenz abgedruckt werden können.
Quelle: arxiv.org/pdf/2601.23265
Die Fünf-Agenten-Architektur
Das Herzstück von PaperBanana ist die Zusammenarbeit von fünf spezialisierten KI-Agenten. Diese Aufteilung verhindert, dass ein einzelnes Modell von der Komplexität der Aufgabe überfordert wird. Der Prozess beginnt beim Retriever-Agenten. Dieser durchsucht eine Datenbank nach relevanten Referenzdesigns, um ein Gefühl für den passenden visuellen Stil zu bekommen.
Anschließend übernimmt der Planner. Er analysiert den Eingabetext – etwa den Methodenteil eines Papers – und entwirft das strukturelle Layout. Er entscheidet, welche Boxen wohin gehören und wie der Datenfluss aussieht. Der Stylist verfeinert diesen Entwurf im Hinblick auf Ästhetik und Lesbarkeit, bevor der Visualizer (Visualisierungs-Agent) die eigentliche Erstellung übernimmt.
Doch der wichtigste Schritt erfolgt erst danach: Der Critic-Agent prüft das Ergebnis. Er vergleicht das generierte Diagramm mit der ursprünglichen Textbeschreibung. Findet er Fehler oder Halluzinationen, schickt er das Diagramm mit konkretem Feedback zurück in die "Produktion". Diese iterative Schleife sorgt für eine drastisch höhere Faktentreue als bei herkömmlichen One-Shot-Verfahren.
Quelle: arxiv.org/pdf/2601.23265
Tech-Stack: Gemini 3 Pro trifft Nano Banana
Unter der Haube arbeitet PaperBanana mit Googles neuesten Modellen. Als "Gehirn" für die Planung und Kritik fungiert Gemini 3 Pro, das dank seiner starken multimodalen Fähigkeiten auch visuelle Zusammenhänge versteht. Für die eigentliche Bildgenerierung kommt das Modell "Nano Banana" zum Einsatz.
Nano Banana gilt aktuell als State-of-the-Art für Text-Rendering in Bildern und iterative Bearbeitung. Es kann Textbeschriftungen sauber darstellen – eine klassische Schwachstelle älterer Diffusionsmodelle. Für statistische Plots (Balkendiagramme, Kurven) wählt das System einen anderen Weg: Hier generiert es direkt ausführbaren Python-Code (Matplotlib), um mathematische Exaktheit zu garantieren.
Anzeige
Der Härtetest: PaperBananaBench
Um die Leistung nicht nur zu behaupten, sondern zu beweisen, haben die Forscher "PaperBananaBench" eingeführt. Dieser Benchmark besteht aus 292 Diagrammen echter NeurIPS-Publikationen aus dem Jahr 2025. In Blindtests traten die Ergebnisse von PaperBanana gegen etablierte Workflows an.
Das Ergebnis ist deutlich: In Kategorien wie Faktentreue ("Faithfulness") und Lesbarkeit schlägt das System die Konkurrenz. Besonders die Möglichkeit, Vektorgrafiken und editierbaren Code zu liefern, hebt das Tool von reinen Pixel-Generatoren ab. Für Forscher könnte dies bedeuten, dass die zeitraubende Arbeit in Adobe Illustrator oder Inkscape bald der Vergangenheit angehört – oder zumindest massiv beschleunigt wird.


