ChatGPT Images 2.0 ist ein riesiger Erfolg
In Folge 19 des OpenAI-Podcasts geht es um diesen Erfolg und die neuen Fähigkeiten des Bildgenerators ChatGPT-Images-2.0.

OpenAIs neues KI-Modell Images 2.0 generiert wöchentlich über 1,5 Milliarden Bilder und verzeichnet einen starken Nutzungsanstieg. Ein detaillierter Einblick in die Renaissance der Bildgenerierung liefert der OpenAI-Podcast Folge 19.
Präzision trifft auf neue Formate
Der neue Bildgenerator Images-2.0 bewältigt komplexe Textdarstellungen innerhalb von Bildern fehlerfrei. Entwickler haben die Fähigkeit implementiert, Typografie in verschiedenen Sprachen akkurat zu rendern, was die Erstellung von detaillierten Infografiken vereinfacht. Gleichzeitig erzeugt die Software auf Befehl beliebige Seitenverhältnisse.
Nutzer erstellen auf dieser Basis weitläufige Landschaftsaufnahmen oder stark hochkante Grafiken. Eine weitere neue Funktion erlaubt die Generierung von nahtlosen 360-Grad-Panoramen. Betrachter können sich anschließend in einer entsprechenden Softwarelösung virtuell in diesen Umgebungen umsehen.
Auch beim generellen Objektverständnis zeigt das KI-Modell deutliche Fortschritte. Während frühere Versionen bei einer Anfrage nach vielen zufälligen Gegenständen schnell an ihre visuellen Grenzen stießen, positioniert Images 2.0 mittlerweile über 100 Objekte präzise in einem Raster.
Vom einfachen Bild zur Softwareentwicklung
Neben der reinen Optik rückt die Kombination verschiedener KI-Systeme in den Fokus. Anwender verknüpfen Images 2.0 zunehmend direkt mit dem Programmier-Modell Codex. Die Bildgenerierung liefert dabei die grafischen Assets, während Codex den dazugehörigen Programmcode für Webseiten oder kleine Applikationen schreibt.
Besonders in der Spieleentwicklung erweist sich diese Methode als nützlich. Das System erstellt konsistente Sprite-Sheets für Charaktere und behält deren Aussehen über verschiedene Posen hinweg bei. Selbst mehrseitige Comic-Konzepte lassen sich durch diese neu gewonnene visuelle Konstanz stringenter umsetzen.
Der sogenannte Thinking-Modus erweitert die Einsatzmöglichkeiten zusätzlich. Die Software greift dabei selbstständig auf Web-Suchen zurück und analysiert bereitgestellte Dateien, um eine passgenauere Komposition zu berechnen. Entwickler planen langfristig den Übergang zu autonomen kreativen Agenten, die spezifische Aufgaben wie Architekturplanung oder Interface-Design anhand persönlicher Präferenzen übernehmen.