ERNIE-Image das beste offene KI-Modell?

Die Open-Weights-Architektur meistert komplexe Layouts und mehrsprachige Textdarstellung auf lokaler Consumer-Hardware.

Andreas Becker14.04.26 Baidu

Kurzfassung Quellen

Das neue Text-zu-Bild-Modell ERNIE-Image fokussiert sich auf fehlerfreie Textdarstellung und komplexe Layouts.
Die Open-Weights-Architektur schlägt mit acht Milliarden Parametern aktuelle Konkurrenten in Benchmarks.
Ein integrierter Prompt Enhancer wandelt kurze Eingaben in detaillierte Anweisungen um.
Das Modell ist auf Hardware mit 24 Gigabyte Videospeicher lokal lauffähig.

Das neue Text-zu-Bild-Modell ERNIE-Image liefert hochauflösende Grafiken und stellt komplexe Schriftzüge fehlerfrei dar. Die Open-Weights-Architektur arbeitet mit acht Milliarden Parametern und platziert sich in aktuellen Benchmarks vor namhaften Konkurrenten.

Fokus auf Layout und Typografie

Ein bekannter Schwachpunkt vieler KI-Modelle ist die korrekte Darstellung von Texten auf generierten Bildern. ERNIE-Image greift genau diese Hürde an. Das Modell rendert lange Textpassagen, fortlaufende Dialoge oder große Typografie für Plakate äußerst zuverlässig. Es verarbeitet englische und chinesische Schriftzeichen und fügt diese ohne visuelle Artefakte in das Motiv ein.

Neben der reinen Schriftbild-Generierung ordnet das System unterschiedliche Bildelemente strukturiert an. Entwickler können damit mehrteilige Layouts wie Manga-Seiten oder komplexe Storyboards erzeugen, die über mehrere Panels hinweg visuell kohärent bleiben. In Evaluierungen wie dem LongTextBench oder GenEval sichert sich die Architektur den ersten Platz unter den Open-Weights-Modellen.

Quelle: Baidu

Zwei Versionen für Consumer-Hardware

Baidu stellt zwei Varianten der Architektur auf der Plattform Hugging Face bereit. Die Basisversion liefert die höchste Detailgenauigkeit, benötigt für eine Generierung jedoch 50 Schritte. Wer schnelle Ergebnisse bevorzugt, greift auf ERNIE-Image-Turbo zurück. Diese optimierte Variante gibt nach lediglich acht Schritten fertige Grafiken aus.

Der Hardware-Bedarf bleibt trotz der hohen Bildqualität moderat. Ein PC mit 24 Gigabyte Videospeicher reicht völlig aus, um das Modell lokal zu betreiben. Dies senkt die Barriere für Nutzer, die offene Modelle in eigenen Anwendungen testen möchten.

Quelle: Baidu

Integrierte Erweiterung für Prompts

Kurze Stichpunkte führen bei Bildgeneratoren häufig zu oberflächlichen Ergebnissen. ERNIE-Image kontert dies mit einem integrierten Prompt Enhancer. Dieses kompakte KI-Modell nutzt drei Milliarden Parameter, um knappe Eingaben vollautomatisch in strukturierte Textbeschreibungen zu übersetzen.

Der Zwischenschritt steigert die finale Bildqualität sichtbar. Er hilft der Hauptarchitektur dabei, komplexe Anweisungen präziser umzusetzen. Für Aufgaben, die tiefes mathematisches oder logisches Verständnis erfordern, lässt sich dieser Assistent auch durch große Sprachmodelle ersetzen. Die Modelle und der Quellcode sind ab sofort auf GitHub verfügbar.