Game Over für GPT-4o? Warum KI-Modelle in Super Mario versagen!

Game Over für GPT-4o? Warum KI-Modelle in Super Mario versagen!

Ein Forschungsteam testet moderne KI-Systeme in Super Mario Bros. – mit überraschenden Ergebnissen! Ist Googles Gemini wirklich zu langsam für Spiele?

Super Mario Benchmark
Flux Schnell | All-AI.de

EINLEITUNG

Künstliche Intelligenz (KI) wird regelmäßig auf ihre Fähigkeiten getestet – sei es bei der Verarbeitung natürlicher Sprache, dem Lösen mathematischer Probleme oder der Steuerung virtueller Welten. Ein Forschungsteam der University of California San Diego setzt nun auf einen überraschenden Benchmark: das klassische Videospiel Super Mario Bros.. Doch was macht das Jump-’n’-Run aus dem Jahr 1985 zu einem relevanten Testfeld für moderne KI-Modelle?

NEWS

Super Mario Bros. als KI-Benchmark

Videospiele haben sich als wertvolle Trainingsumgebungen für KI-Modelle etabliert. Super Mario Bros. stellt besonders hohe Anforderungen an Planung, Reaktionsgeschwindigkeit und strategisches Denken. Das Hao AI Lab der UC San Diego entwickelte das Framework GamingAgent, das KIs die Steuerung von Mario ermöglicht. Das Spiel läuft in einem Emulator, und die KI erhält neben In-Game-Screenshots auch Anweisungen wie „Springe über Hindernisse“ oder „Weiche Gegnern aus“. Die Herausforderung: Die KI muss auf Basis dieser Informationen eigene Strategien entwickeln, um Level zu meistern.

Twitter-Beitrag: Cookies müssen aktiviert sein, hier klicken.

Wie verschiedene KI-Modelle abschneiden

Das Forschungsteam testete verschiedene große KI-Modelle, die in anderen Benchmarks bereits hohe Punktzahlen erzielen. Doch die Ergebnisse in Super Mario Bros. zeigen ein gemischtes Bild:

Anthropic’s Claude 3.7 schnitt am besten ab und konnte die Spielmechaniken schnell erlernen.

Claude 3.5 zeigte solide Leistungen, blieb aber hinter seinem Nachfolger zurück.

Google’s Gemini 1.5 Pro und OpenAI’s GPT-4o hatten Schwierigkeiten, die Anforderungen des Spiels zu erfüllen.

Ein entscheidender Faktor war die Reaktionszeit: Super Mario Bros. erfordert Entscheidungen im Millisekundenbereich. Während klassische „Reasoning“-Modelle Probleme Schritt für Schritt analysieren, hatten sie hier einen klaren Nachteil – sie waren schlicht zu langsam.

Warum scheitern reasoning-fähige Modelle?

Modelle wie OpenAI’s GPT-4o basieren auf einem „Schritt-für-Schritt“-Ansatz, um logische Probleme zu lösen. Das ist nützlich bei komplexen Aufgaben, aber ungeeignet für Echtzeitspiele. Während ein Mensch instinktiv reagiert, benötigt ein reasoning-fähiges Modell oft mehrere Sekunden für eine Entscheidung – eine Ewigkeit im schnellen Gameplay von Super Mario Bros.. Das Experiment zeigt, dass nicht jede KI, die in Tests gut abschneidet, auch für dynamische Umgebungen geeignet ist.

Super Mario als langfristige Benchmark

Bereits 2009 wurde mit der Mario AI Benchmark eine Plattform geschaffen, um verschiedene KI-Techniken im Spielumfeld zu testen. Neben Reinforcement Learning wurden dabei auch evolutionäre Algorithmen eingesetzt. Das aktuelle Experiment von Hao AI Lab erweitert diesen Ansatz und zeigt, dass Spiele mit komplexer Physik und unvorhersehbaren Situationen weiterhin wertvolle Testumgebungen für KI-Systeme sind.

Kritik an Spiele-Benchmarks

Die Verwendung von Videospielen zur Bewertung von KI-Entwicklung ist nicht unumstritten. Kritiker argumentieren, dass Spielumgebungen stark vereinfacht sind und keine realen Situationen widerspiegeln. Der KI-Forscher Andrej Karpathy spricht von einer „Evaluation Crisis“ – es sei unklar, welche Benchmarks tatsächlich Rückschlüsse auf die allgemeine Intelligenz eines Modells erlauben. Trotzdem sind Spiele wertvolle Testfelder, da sie Algorithmen auf nicht vorhersehbare Herausforderungen vorbereiten können.

AUSBLICK

Was bringt das Experiment für die KI-Forschung?

Der Einsatz von Super Mario Bros. als Benchmark zeigt, dass sich die Forschung stärker mit Echtzeitfähigkeiten von KI beschäftigen muss. Die meisten aktuellen Modelle sind darauf optimiert, präzise und nachvollziehbare Antworten zu liefern – nicht aber, schnell auf unerwartete Veränderungen zu reagieren. Falls KI-Systeme in Zukunft Roboter steuern oder in Notfallsituationen eingesetzt werden sollen, müssen sie besser darin werden, innerhalb von Millisekunden zu agieren. Das Experiment könnte daher ein wichtiger Baustein für die Entwicklung neuer Modellarchitekturen sein.

Profilbild Caramba

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

KURZFASSUNG

  • Forscher der UC San Diego nutzen *Super Mario Bros.* als Benchmark, um die Echtzeitfähigkeit moderner KI-Modelle zu testen.
  • Während Claude 3.7 gute Ergebnisse erzielte, hatten OpenAI’s GPT-4o und Google’s Gemini 1.5 Pro Probleme mit der schnellen Reaktionszeit.
  • Das Experiment zeigt, dass viele KI-Modelle zwar gut in logischen Aufgaben sind, aber Schwierigkeiten bei schnellen, dynamischen Herausforderungen haben.
  • Kritiker warnen, dass Spiele-Benchmarks nicht direkt auf reale Anwendungen übertragbar sind – doch das Experiment liefert wertvolle Erkenntnisse für die KI-Forschung.

QUELLEN