Ein Spielgerät für KI

KI-Modelle versagen beim ARC-AGI-3-Test

Der neue Benchmark zeigt die Schwächen moderner KI beim interaktiven Reasoning. Menschen lösen diese Aufgaben problemlos.

Andreas Becker Nano Banana
Ein Spielgerät für KI

Führende KI-Modelle versagen beim neuen ARC-AGI-3-Benchmark für interaktives Reasoning beinahe vollständig. Sie erreichen eine Erfolgsquote von unter einem Prozent. Untrainierte Menschen lösen diese Aufgaben hingegen intuitiv. Entwickler lockt nun ein hohes Preisgeld.

Visuelle Rätsel entlarven Schwächen

Jeder Nutzer kann die ARC-Aufgaben als kurzes Denkspiel direkt im Browser testen. Menschen erkennen die Logik hinter den bunten Rastern sofort und leiten die Lösung in wenigen Sekunden ab. Sie benötigen dafür absolut kein vorheriges Training.

KI-Modelle scheitern genau an dieser simplen Transferleistung. Sie basieren primär auf der Vorhersage einzelner Token und reproduzieren bekannte Muster aus ihren enormen Trainingsdaten. Sobald eine Aufgabe jedoch echtes, ungesehenes Reasoning verlangt, liefern die gängigen Architekturen keine brauchbaren Ergebnisse mehr.

Drastischer Absturz im Leaderboard

Der direkte Vergleich der Benchmarks zeigt die aktuelle Leistungsgrenze der Technologie auf. Beim Vorgänger ARC-AGI-2 erzielten Spitzenreiter wie GPT-5.4 Pro oder Gemini 3.1 Pro noch Erfolgsquoten von teils über 80 Prozent. Die Rechenkosten pro Aufgabe blieben dabei mit maximal zehn US-Dollar überschaubar.

Das neue ARC-AGI-3 Leaderboard zeichnet ein völlig anderes, ernüchterndes Bild. Modelle wie Anthropic Opus 4.6, Grok 4.20 und Gemini 3.1 Pro stürzen auf Werte von maximal 0,3 Prozent ab. Gleichzeitig steigen die Kosten für diese Lösungsversuche drastisch auf bis zu 10.000 US-Dollar pro Task, ohne dass die Modelle die Rätsel erfolgreich beenden.

Zwei Millionen Dollar für echtes Verständnis

Die Entwickler des Benchmarks kreieren gezielt Aufgaben abseits öffentlicher Datensätze. Das verhindert ein bloßes Auswendiglernen von Lösungswegen und prüft die tatsächliche Anpassungsfähigkeit der Systeme auf dem Weg zur AGI. Bisherige Tests lieferten häufig verzerrte Resultate durch bereits bekannte Informationen im Netz.

Um die technische Entwicklung voranzutreiben, steht der ARC Prize bereit. Wer als Erstes ein Open Source Modell präsentiert, das die menschliche Basislinie knackt, erhält zwei Millionen US-Dollar. Bislang sichert sich kein Ansatz diese Prämie.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.