KI-Battle im Gerichtssaal: o1 siegt, Gemini spart
OpenAI o1 ist cleverer, Gemini 2.5 Pro günstiger – doch wer ist der wahre Champion des "Ace Attorney"-Tests?

Flux Schnell | All-AI.de
EINLEITUNG
Forschende des Hao AI Lab an der University of California San Diego haben ein ungewöhnliches Setting gewählt, um die Reasoning-Fähigkeiten führender KI-Modelle zu testen: das Videospiel „Phoenix Wright: Ace Attorney“. Das Ergebnis zeigt nicht nur, wie unterschiedlich die Modelle denken – sondern auch, was Leistung und Kosten voneinander trennt. Wer hält dem Kreuzverhör am besten stand?
NEWS
"Phoenix Wright" als neuer Reasoning-Standard
Das Spiel „Ace Attorney“ verlangt mehr als simple Textauswertung: Beweise müssen gesammelt, Aussagen geprüft und Widersprüche aufgedeckt werden. Für KI-Modelle eine besondere Herausforderung, die tiefes Kontextverständnis und strategisches Denken voraussetzt. Die Tests zeigten, wie unterschiedlich Modelle auf komplexe Aufgaben reagieren – und wo ihre Grenzen liegen.
Twitter-Beitrag: Cookies müssen aktiviert sein, hier klicken.
Phoenix Wright Ace Attorney is a popular visual novel known for its complex storytelling and courtroom drama. Like a detective novel, it challenges players to connect clues and evidence to expose contradictions and reveal the true culprit.
— Hao AI Lab (@haoailab) April 15, 2025
In our setup, models are tested on the… pic.twitter.com/iZ30nrtXcv
OpenAI o1 setzt sich knapp an die Spitze
Im direkten Vergleich zwischen OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking und Llama 4 Maverick setzte sich o1 durch. Während o1 und Gemini 2.5 Pro bis in Level 4 vordrangen, überzeugte o1 vor allem in den schwierigeren Phasen durch präzisere Argumentation. Claude 3.7-thinking und Llama 4 Maverick schieden dagegen bereits in früheren Levels aus – ein Hinweis auf Defizite im tiefen Reasoning.
Gemini 2.5 Pro punktet bei den Kosten
Trotz der besseren Performance von o1 überrascht Gemini 2.5 Pro in einem anderen Bereich: der Effizienz. Besonders bei langen Kreuzverhören zeigte sich, dass Gemini erheblich günstiger arbeitet. In einem komplexen Fall kostete der Einsatz von o1 rund 45,75 Dollar – während Gemini denselben Fall für nur 7,89 Dollar bewältigte. Je nach Fall war Gemini damit zwischen sechs- und fünfzehnmal kosteneffizienter.
Was "Ace Attorney" über KIs verrät
Das Experiment deckte zentrale Fähigkeiten auf, die moderne KI-Modelle differenzieren: Langzeit-Reasoning über große Kontexte, präzises visuelles Verständnis und strategisches Denken unter Unsicherheit. Anforderungen, die weit über klassische Benchmarks hinausgehen und realitätsnähere Herausforderungen darstellen. Besonders spannend: Die getesteten Modelle offenbarten deutliche Unterschiede, wie sie mit mehrdeutigen Informationen umgehen.
AUSBLICK
KI auf der Anklagebank: Was Spiele über echte Fähigkeiten verraten
Das Experiment mit „Ace Attorney“ zeigt, dass Games weit mehr sein können als Unterhaltung: Sie entlarven Schwächen und Stärken von KI auf realistische Weise. OpenAI o1 glänzt beim tiefen Reasoning, Gemini 2.5 Pro überzeugt beim Kostenmanagement. Für die Zukunft wird entscheidend sein, welche Modelle nicht nur akademische Benchmarks meistern, sondern auch in komplexen, dynamischen Umgebungen bestehen können – eine Herausforderung, die noch längst nicht bewältigt ist.
UNTERSTÜTZUNG
Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.
KURZFASSUNG
- Forschende der UC San Diego testeten KI-Modelle anhand des Spiels "Ace Attorney" auf ihre Reasoning-Fähigkeiten.
- OpenAI o1 schnitt leicht besser ab als Gemini 2.5 Pro, war jedoch deutlich teurer im Betrieb.
- Der Test zeigt, dass Spiele anspruchsvolle und praxisnahe Benchmarks für KI-Modelle bieten können.