Ein Google Roboter und ein OpenAI Roboter kämpfen vor Gericht

KI-Battle im Gerichtssaal: o1 siegt, Gemini spart

OpenAI o1 ist cleverer, Gemini 2.5 Pro günstiger – doch wer ist der wahre Champion des "Ace Attorney"-Tests?

Flux Schnell | All-AI.de

EINLEITUNG

Forschende des Hao AI Lab an der University of California San Diego haben ein ungewöhnliches Setting gewählt, um die Reasoning-Fähigkeiten führender KI-Modelle zu testen: das Videospiel „Phoenix Wright: Ace Attorney“. Das Ergebnis zeigt nicht nur, wie unterschiedlich die Modelle denken – sondern auch, was Leistung und Kosten voneinander trennt. Wer hält dem Kreuzverhör am besten stand?

NEWS

"Phoenix Wright" als neuer Reasoning-Standard

Das Spiel „Ace Attorney“ verlangt mehr als simple Textauswertung: Beweise müssen gesammelt, Aussagen geprüft und Widersprüche aufgedeckt werden. Für KI-Modelle eine besondere Herausforderung, die tiefes Kontextverständnis und strategisches Denken voraussetzt. Die Tests zeigten, wie unterschiedlich Modelle auf komplexe Aufgaben reagieren – und wo ihre Grenzen liegen.

Twitter-Beitrag: Cookies müssen aktiviert sein, hier klicken.

Phoenix Wright Ace Attorney is a popular visual novel known for its complex storytelling and courtroom drama. Like a detective novel, it challenges players to connect clues and evidence to expose contradictions and reveal the true culprit.

In our setup, models are tested on the… pic.twitter.com/iZ30nrtXcv
— Hao AI Lab (@haoailab) April 15, 2025

OpenAI o1 setzt sich knapp an die Spitze

Im direkten Vergleich zwischen OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking und Llama 4 Maverick setzte sich o1 durch. Während o1 und Gemini 2.5 Pro bis in Level 4 vordrangen, überzeugte o1 vor allem in den schwierigeren Phasen durch präzisere Argumentation. Claude 3.7-thinking und Llama 4 Maverick schieden dagegen bereits in früheren Levels aus – ein Hinweis auf Defizite im tiefen Reasoning.

Gemini 2.5 Pro punktet bei den Kosten

Trotz der besseren Performance von o1 überrascht Gemini 2.5 Pro in einem anderen Bereich: der Effizienz. Besonders bei langen Kreuzverhören zeigte sich, dass Gemini erheblich günstiger arbeitet. In einem komplexen Fall kostete der Einsatz von o1 rund 45,75 Dollar – während Gemini denselben Fall für nur 7,89 Dollar bewältigte. Je nach Fall war Gemini damit zwischen sechs- und fünfzehnmal kosteneffizienter.

Was "Ace Attorney" über KIs verrät

Das Experiment deckte zentrale Fähigkeiten auf, die moderne KI-Modelle differenzieren: Langzeit-Reasoning über große Kontexte, präzises visuelles Verständnis und strategisches Denken unter Unsicherheit. Anforderungen, die weit über klassische Benchmarks hinausgehen und realitätsnähere Herausforderungen darstellen. Besonders spannend: Die getesteten Modelle offenbarten deutliche Unterschiede, wie sie mit mehrdeutigen Informationen umgehen.

AUSBLICK

KI auf der Anklagebank: Was Spiele über echte Fähigkeiten verraten

Das Experiment mit „Ace Attorney“ zeigt, dass Games weit mehr sein können als Unterhaltung: Sie entlarven Schwächen und Stärken von KI auf realistische Weise. OpenAI o1 glänzt beim tiefen Reasoning, Gemini 2.5 Pro überzeugt beim Kostenmanagement. Für die Zukunft wird entscheidend sein, welche Modelle nicht nur akademische Benchmarks meistern, sondern auch in komplexen, dynamischen Umgebungen bestehen können – eine Herausforderung, die noch längst nicht bewältigt ist.

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

KURZFASSUNG

Forschende der UC San Diego testeten KI-Modelle anhand des Spiels "Ace Attorney" auf ihre Reasoning-Fähigkeiten.
OpenAI o1 schnitt leicht besser ab als Gemini 2.5 Pro, war jedoch deutlich teurer im Betrieb.
Der Test zeigt, dass Spiele anspruchsvolle und praxisnahe Benchmarks für KI-Modelle bieten können.