Sam Altman programmiert schnell das Spiel Snake

OpenAI GPT-5.3-Codex-Spark bringt "Echtzeit-Coding"

Dank Cerebras-Hardware generiert das neue Modell Code extrem schnell, opfert dafür aber Präzision bei komplexen Aufgaben im Vergleich zum Standard-Modell.

Andreas Becker12.02.26 Nano Banana

Kurzfassung Quellen

OpenAI veröffentlicht mit GPT-5.3-Codex-Spark ein neues KI-Modell, das speziell auf der Hardware von Cerebras statt auf Nvidia-GPUs läuft.
Das Modell priorisiert Geschwindigkeit und erreicht durch die Wafer-Scale-Architektur extrem niedrige Latenzen für Echtzeit-Coding.
Benchmarks zeigen eine deutlich geringere Genauigkeit (58,4 %) im Vergleich zum Standard-GPT-5.3-Codex (77,3 %), aber eine schnellere Aufgabenbewältigung.
Der Schritt markiert eine strategische Diversifizierung der Recheninfrastruktur von OpenAI, um Abhängigkeiten zu verringern.

OpenAI diversifiziert seine Infrastruktur und veröffentlicht mit GPT-5.3-Codex-Spark erstmals ein Modell, das primär auf Chips des Herstellers Cerebras statt auf Nvidia-GPUs läuft. Der Fokus liegt auf extremer Geschwindigkeit für Echtzeit-Anwendungen, was jedoch klare Abstriche bei der Modell-Präzision mit sich bringt.

Mit der Einführung von GPT-5.3-Codex-Spark vollzieht OpenAI einen strategischen Wechsel in der Hardware-Nutzung. Das Modell ist spezifisch für die Architektur der "Wafer Scale Engine" von Cerebras optimiert. Ziel dieser Implementierung ist nicht die Steigerung der kognitiven Höchstleistung, sondern die drastische Reduzierung der Latenz bei der Code-Generierung. Dies folgt auf Berichte vom Januar 2026, wonach OpenAI Rechenkapazitäten im Wert von rund 10 Milliarden US-Dollar bei dem Chip-Spezialisten gesichert hat.

Latenzminimierung durch Wafer-Scale-Architektur

Im Gegensatz zu herkömmlichen GPU-Clustern, bei denen Daten häufig zwischen Speicher und Recheneinheit transferiert werden müssen, nutzen Cerebras-Systeme riesige Chips, die Speicher und Rechenkerne direkt auf dem Wafer vereinen. Für Inferenz-Aufgaben, also die Anwendung des trainierten Modells, bedeutet dies einen erheblichen Geschwindigkeitsvorteil.

OpenAI positioniert "Spark" daher als Lösung für Szenarien, in denen der "Flow" des Entwicklers nicht unterbrochen werden darf – etwa bei der Autovervollständigung in der IDE oder bei Agenten-Systemen, die Code in Schleifen selbstständig korrigieren müssen. Die technische Dokumentation verspricht eine bis zu 15-fach höhere Generierungsgeschwindigkeit im Vergleich zum Standard-Modell GPT-5.3-Codex. Folgendes Video zeigt es sehr gut:

Quelle: X

Benchmarks: Geschwindigkeit trifft auf Realität

Ein detaillierter Blick auf die Leistungsdaten zeigt, dass die hohe Geschwindigkeit ihren Preis hat. Die Modell-Architektur ist zwangsläufig schlanker, was die Problemlösungsfähigkeit bei komplexen Aufgaben einschränkt.

Im "Terminal-Bench 2.0" (siehe Grafik) erreicht GPT-5.3-Codex-Spark eine Genauigkeit von 58,4 Prozent. Damit positioniert es sich zwar signifikant vor dem kleineren GPT-5.1-Codex-mini (46,1 Prozent), bleibt aber deutlich hinter dem aktuellen Flaggschiff GPT-5.3-Codex zurück, das eine Lösungsrate von 77,3 Prozent erzielt. Für kritische Infrastruktur-Updates oder komplexe Architektur-Entscheidungen bleibt das Standard-Modell somit die präzisere Wahl.

Quelle: OpenAI

Die Daseinsberechtigung von Spark offenbart sich im "SWE-Bench Pro", der die Genauigkeit in Relation zur Bearbeitungsdauer setzt. Die Datenpunkte zeigen, dass Spark (weiß markiert) Aufgaben typischerweise in einem Zeitfenster von 1 bis 3 Minuten abschließt. Das reguläre Codex-Modell (hellblau) benötigt für vergleichbare Lösungsraten oft zwischen 5 und 16 Minuten. Die Kurve verdeutlicht: Spark ist auf schnelles "Inferenz-Feuern" ausgelegt, stagniert aber bei der Genauigkeit früher als das rechenintensivere Schwestermodell.

Quelle: OpenAI

Strategische Unabhängigkeit

Der Schritt ist auch politisch zu bewerten. Durch die Nutzung von Cerebras-Hardware verringert OpenAI die absolute Abhängigkeit von Nvidia. Für Unternehmenskunden bedeutet die Einführung von Spark eine neue Option im Baukasten: Sie müssen künftig abwägen, ob sie für einen Task die maximale Intelligenz (Codex) oder die schnellste Reaktionszeit (Codex-Spark) benötigen. In der Praxis dürfte Spark vor allem als "Vorschalt-Instanz" dienen, die einfache Probleme sofort löst und nur bei Bedarf an das größere Modell weiter reicht.