So übertrifft AlphaEvolve von DeepMind menschliche Programmierer

AlphaEvolve automatisiert das Design von Algorithmen durch evolutionäre Prozesse. Die entdeckten Methoden VAD-CFR und SHOR-PSRO setzen neue Maßstäbe.

Andreas Becker25.02.26 Nano Banana

Kurzfassung Quellen

Google DeepMind hat mit AlphaEvolve einen KI-Agenten entwickelt, der selbstständig neue Algorithmen für das maschinelle Lernen schreibt.
Das System nutzt Large Language Models, um bestehenden Programmcode gezielt zu verändern und in Testläufen zu optimieren.
Dabei wurden die neuen Methoden VAD-CFR und SHOR-PSRO entdeckt, die etablierte Standards bei der Lösungsfindung übertreffen.
Die Forschung zeigt, dass KI-Modelle durch unkonventionelle mathematische Ansätze effizientere Trainingsmethoden finden als menschliche Entwickler.

Künstliche Intelligenz entwirft ab sofort selbstständig neue Trainingsmethoden für andere KI-Systeme. Das zeigt Google DeepMind in einem neu veröffentlichten arXiv-Paper über den Programmier-Agenten AlphaEvolve. Das System schreibt den Code für Algorithmen eigenständig um und schlägt dabei menschliche Konzepte.

Evolution im Programmcode

Bislang war die Entwicklung neuer Algorithmen für das maschinelle Lernen stark von menschlicher Intuition und langen Testreihen abhängig. AlphaEvolve automatisiert diesen langwierigen Prozess nun durch einen strikt evolutionären Ansatz.

Dabei analysiert ein Large Language Model (LLM) bestehenden Programmcode und verändert diesen zielgerichtet. Das System arbeitet nach dem Prinzip der natürlichen Auslese: Der veränderte Code tritt in Testumgebungen direkt gegen bisherige Lösungen an. Die erfolgreichsten Code-Varianten dienen dann als Grundlage für den nächsten Durchlauf. So entstehen schrittweise neue, optimierte Algorithmen.

Die Forscher konzentrieren sich bei diesem Testlauf auf das sogenannte Multi-Agent Reinforcement Learning. Bei dieser Methode interagieren mehrere KI-Agenten in komplexen digitalen Umgebungen miteinander. Sie lernen aus Fehlern und passen ihre Strategien laufend an. Typische Anwendungsfälle für diese Technologie sind komplexe Strategiespiele mit unvollständigen Informationen, wie beispielsweise Poker.

Quelle: Google Paper

Unkonventionelle Lösungswege

Durch diesen vollautomatisierten Prozess hat AlphaEvolve zwei völlig neue Lernalgorithmen entdeckt: VAD-CFR und SHOR-PSRO. Beide Ansätze regeln präzise, wie KI-Modelle aus vergangenen Aktionen lernen und ihre zukünftigen Entscheidungen optimieren.

Die Besonderheit liegt in der inneren Struktur der neuen Algorithmen. Sie nutzen mathematische Mechanismen, die für menschliche Entwickler auf den ersten Blick unlogisch oder unnötig kompliziert wirken. Dennoch sind sie bisherigen Standardmethoden bei der Lösungsfindung deutlich überlegen. VAD-CFR passt beispielsweise die Gewichtung von Fehlentscheidungen dynamisch an die aktuelle Situation an, statt starren Regeln zu folgen.

AlphaEvolve verdeutlicht, dass eine KI nicht mehr nur bestehende Variablen und Parameter justiert, sondern die tiefgreifende Logik des Programmcodes grundlegend neu schreibt. Die aktuellen Forschungsergebnisse zeigen klar auf, dass die Leistungsfähigkeit von KI-Systemen künftig maßgeblich von Algorithmen abhängen wird, die von Maschinen selbst entworfen wurden.