KI-Modelle versagen beim ARC-AGI-3-Test

Der neue Benchmark zeigt die Schwächen moderner KI beim interaktiven Reasoning. Menschen lösen diese Aufgaben problemlos.

Andreas Becker26.03.26 Nano Banana

Kurzfassung Quellen

Beim neuen ARC-AGI-3-Benchmark brechen die Erfolgsquoten führender KI-Modelle auf unter 0,4 Prozent ein.
Im direkten Vergleich zum Vorgänger ARC-AGI-2 explodieren zudem die Rechenkosten auf bis zu 10.000 US-Dollar pro Aufgabe.
Untrainierte Menschen lösen die visuellen Logikrätsel mühelos, da KI-Modelle bisher kein echtes Reasoning beherrschen.
Der ARC Prize bietet zwei Millionen US-Dollar für das erste Open Source Modell, das menschliches Niveau erreicht.

Führende KI-Modelle versagen beim neuen ARC-AGI-3-Benchmark für interaktives Reasoning beinahe vollständig. Sie erreichen eine Erfolgsquote von unter einem Prozent. Untrainierte Menschen lösen diese Aufgaben hingegen intuitiv. Entwickler lockt nun ein hohes Preisgeld.

Visuelle Rätsel entlarven Schwächen

Jeder Nutzer kann die ARC-Aufgaben als kurzes Denkspiel direkt im Browser testen. Menschen erkennen die Logik hinter den bunten Rastern sofort und leiten die Lösung in wenigen Sekunden ab. Sie benötigen dafür absolut kein vorheriges Training.

KI-Modelle scheitern genau an dieser simplen Transferleistung. Sie basieren primär auf der Vorhersage einzelner Token und reproduzieren bekannte Muster aus ihren enormen Trainingsdaten. Sobald eine Aufgabe jedoch echtes, ungesehenes Reasoning verlangt, liefern die gängigen Architekturen keine brauchbaren Ergebnisse mehr.

Quelle: arcprize.org

Drastischer Absturz im Leaderboard

Der direkte Vergleich der Benchmarks zeigt die aktuelle Leistungsgrenze der Technologie auf. Beim Vorgänger ARC-AGI-2 erzielten Spitzenreiter wie GPT-5.4 Pro oder Gemini 3.1 Pro noch Erfolgsquoten von teils über 80 Prozent. Die Rechenkosten pro Aufgabe blieben dabei mit maximal zehn US-Dollar überschaubar.

Quelle: arcprize.org

Das neue ARC-AGI-3 Leaderboard zeichnet ein völlig anderes, ernüchterndes Bild. Modelle wie Anthropic Opus 4.6, Grok 4.20 und Gemini 3.1 Pro stürzen auf Werte von maximal 0,3 Prozent ab. Gleichzeitig steigen die Kosten für diese Lösungsversuche drastisch auf bis zu 10.000 US-Dollar pro Task, ohne dass die Modelle die Rätsel erfolgreich beenden.

Quelle: arcprize.org

Zwei Millionen Dollar für echtes Verständnis

Die Entwickler des Benchmarks kreieren gezielt Aufgaben abseits öffentlicher Datensätze. Das verhindert ein bloßes Auswendiglernen von Lösungswegen und prüft die tatsächliche Anpassungsfähigkeit der Systeme auf dem Weg zur AGI. Bisherige Tests lieferten häufig verzerrte Resultate durch bereits bekannte Informationen im Netz.

Um die technische Entwicklung voranzutreiben, steht der ARC Prize bereit. Wer als Erstes ein Open Source Modell präsentiert, das die menschliche Basislinie knackt, erhält zwei Millionen US-Dollar. Bislang sichert sich kein Ansatz diese Prämie.