Ein Roboter auf der Couch spielt Pokemon

KI spielt Pokémon durch - Googles Gemini 2.5 Pro verblüfft Gamer

Ein Sprachmodell als Gamer? Mit technischer Hilfe meistert Gemini 2.5 Pro das Kultspiel Pokémon Blue. Wie funktioniert das überhaupt?

Kurzfassung | Andreas Becker, 04.05.25

Flux Schnell | All-AI.de

EINLEITUNG

Ein Fanprojekt zeigt eindrucksvoll, wie Googles Sprachmodell Gemini 2.5 Pro das klassische Gameboy-Spiel Pokémon Blue meistert. Doch der Erfolg kommt nicht allein durch KI-Zauberei zustande: Ein komplexes Zusammenspiel aus Emulator, Subagenten und cleverem Gedächtnismanagement macht das Abenteuer möglich. Was sagt dieser Versuch über den Stand der KI – und was bleibt Wunschdenken?

NEWS

So spielt KI Gameboy

Das Projekt koppelt den mGBA-Emulator direkt an Gemini 2.5 Pro. Der Emulator liefert Screenshots und relevante Spieldaten – etwa Positionen, Pokémon-Status und Karteninformationen – als Eingabe für das Sprachmodell. Gemini antwortet mit Tastenbefehlen wie „rechts“, „A“ oder „Menü öffnen“, die im Emulator ausgeführt werden.

Um die Navigation zu erleichtern, wird die Spielgrafik gerastert, ergänzt durch einen Kartenverlauf in Textform. RAM-Daten erweitern das situative Verständnis. So entsteht ein „Pseudogedächtnis“, das der KI hilft, sich trotz fehlender räumlicher Intuition durch die Welt von Kanto zu bewegen.

Twitter-Beitrag: Cookies müssen aktiviert sein, hier klicken.

Cookies aktivieren um den Inhalt zu sehen:

What a finish! Gemini 2.5 Pro just completed Pokémon Blue! Special thanks to @TheCodeOfJoel for creating and running the livestream, and to everyone who cheered Gem on along the way. pic.twitter.com/E2pn3tpfEb
— Sundar Pichai (@sundarpichai) May 3, 2025

Subagenten für Spezialaufgaben

Nicht alle Aufgaben erledigt Gemini allein. Für knifflige Passagen wie Labyrinthe oder Schieberätsel schaltet das System spezialisierte Subagenten zu – ebenfalls Gemini-Instanzen mit fokussierten Aufgabenprofilen. Ein „Pathfinder“ berechnet Wege durch Höhlen, während ein „Puzzle-Strategist“ bei Boulder-Rätseln unterstützt.

Interessant: Die Hauptinstanz entscheidet selbst, wann ein Subagent nötig ist – ein Hinweis darauf, dass das Modell einfache von komplexen Spielsituationen unterscheiden kann.

Token-Tetris statt Dauererinnerung

Da Sprachmodelle eine begrenzte Kontextlänge haben, muss das „Gedächtnis“ regelmäßig aufgeräumt werden. Nach etwa 100 Aktionen fasst das System frühere Nachrichten zusammen, um Platz für neue Eingaben zu schaffen. Ohne diese Maßnahme würde der Tokenrahmen schnell überlaufen – und das Modell vergisst den Spielverlauf.

KI mit Grenzen: Mensch hilft mit

Trotz des Erfolgs bleibt Gemini 2.5 Pro auf menschliche Hilfe angewiesen. Der Entwickler greift gelegentlich ein – etwa durch das Sperren problematischer Items oder das Beheben von Fehlern. Eine Komplettlösung erhält das Modell zwar nicht, doch ein technisches Sicherheitsnetz bleibt unerlässlich. Das Projekt zeigt damit eher KI-Koordination als autonome Intelligenz.

AUSBLICK

Von der Pokémon-KI zur Spiele-KI?

Der Versuch, Gemini 2.5 Pro durch Pokémon Blue zu lotsen, ist mehr als ein technisches Kuriosum – er demonstriert, wie KI-Modelle in komplexen, dynamischen Umgebungen bestehen können. Der nächste Schritt wäre, die Stützstrukturen zu reduzieren: weniger RAM-Hilfen, mehr In-Game-Lernen, vielleicht sogar ein durchgehender Run ohne menschliche Eingriffe. Was heute noch wie ein cleveres KI-Experiment aussieht, könnte morgen der Prototyp einer neuen Generation spielintelligenter Systeme sein.

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

KURZFASSUNG

Ein Entwickler koppelte Googles Gemini 2.5 Pro mit einem Gameboy-Emulator, um Pokémon Blue erfolgreich durchspielen zu lassen.
Das Sprachmodell erhielt visuelle und technische Daten, nutzte Subagenten für komplexe Aufgaben und komprimierte sein Gedächtnis regelmäßig.
Trotz beeindruckender Leistung blieb menschliches Eingreifen nötig – ein Hinweis auf die aktuellen Grenzen solcher KI-Systeme.
Das Projekt verdeutlicht das Potenzial von Sprachmodellen in interaktiven Anwendungen und bietet Ansätze für zukünftige Entwicklungen.