ERNIE-Image das beste offene KI-Modell?
Die Open-Weights-Architektur meistert komplexe Layouts und mehrsprachige Textdarstellung auf lokaler Consumer-Hardware.

Das neue Text-zu-Bild-Modell ERNIE-Image liefert hochauflösende Grafiken und stellt komplexe Schriftzüge fehlerfrei dar. Die Open-Weights-Architektur arbeitet mit acht Milliarden Parametern und platziert sich in aktuellen Benchmarks vor namhaften Konkurrenten.
Fokus auf Layout und Typografie
Ein bekannter Schwachpunkt vieler KI-Modelle ist die korrekte Darstellung von Texten auf generierten Bildern. ERNIE-Image greift genau diese Hürde an. Das Modell rendert lange Textpassagen, fortlaufende Dialoge oder große Typografie für Plakate äußerst zuverlässig. Es verarbeitet englische und chinesische Schriftzeichen und fügt diese ohne visuelle Artefakte in das Motiv ein.
Neben der reinen Schriftbild-Generierung ordnet das System unterschiedliche Bildelemente strukturiert an. Entwickler können damit mehrteilige Layouts wie Manga-Seiten oder komplexe Storyboards erzeugen, die über mehrere Panels hinweg visuell kohärent bleiben. In Evaluierungen wie dem LongTextBench oder GenEval sichert sich die Architektur den ersten Platz unter den Open-Weights-Modellen.
Quelle: Baidu
Zwei Versionen für Consumer-Hardware
Baidu stellt zwei Varianten der Architektur auf der Plattform Hugging Face bereit. Die Basisversion liefert die höchste Detailgenauigkeit, benötigt für eine Generierung jedoch 50 Schritte. Wer schnelle Ergebnisse bevorzugt, greift auf ERNIE-Image-Turbo zurück. Diese optimierte Variante gibt nach lediglich acht Schritten fertige Grafiken aus.
Der Hardware-Bedarf bleibt trotz der hohen Bildqualität moderat. Ein PC mit 24 Gigabyte Videospeicher reicht völlig aus, um das Modell lokal zu betreiben. Dies senkt die Barriere für Nutzer, die offene Modelle in eigenen Anwendungen testen möchten.
Quelle: Baidu
Integrierte Erweiterung für Prompts
Kurze Stichpunkte führen bei Bildgeneratoren häufig zu oberflächlichen Ergebnissen. ERNIE-Image kontert dies mit einem integrierten Prompt Enhancer. Dieses kompakte KI-Modell nutzt drei Milliarden Parameter, um knappe Eingaben vollautomatisch in strukturierte Textbeschreibungen zu übersetzen.
Der Zwischenschritt steigert die finale Bildqualität sichtbar. Er hilft der Hauptarchitektur dabei, komplexe Anweisungen präziser umzusetzen. Für Aufgaben, die tiefes mathematisches oder logisches Verständnis erfordern, lässt sich dieser Assistent auch durch große Sprachmodelle ersetzen. Die Modelle und der Quellcode sind ab sofort auf GitHub verfügbar.

