Autoresearch von Andrej Karpathy: KI-Agenten optimieren Code

Ein neues Open-Source-Projekt ermöglicht es KI-Modellen, eigenständig Experimente durchzuführen und Trainingscode über Nacht zu verbessern.

Andreas Becker12.03.26 Nano Banana

Kurzfassung Quellen

Andrej Karpathy hat das Open-Source-Projekt Autoresearch veröffentlicht, das KI-Agenten befähigt, Modelle selbstständig zu trainieren.
Die Software passt den Python-Code an, führt fünfminütige Tests durch und bewertet die Leistung anhand einer speziellen Metrik.
Durch diesen Prozess kann das System über Nacht rund 100 Experimente auf einer einzigen Standard-GPU absolvieren.
Entwickler sparen sich dadurch die zeitraubende Trial-and-Error-Phase und lagern die Optimierung komplett an die KI aus.

Der Entwickler Andrej Karpathy hat das Open-Source-Projekt "Autoresearch" veröffentlicht. Die Software befähigt KI-Agenten dazu, selbstständig maschinelles Lernen zu betreiben und Code fortlaufend zu verbessern. Ein manuelles Eingreifen durch Menschen ist dabei nicht mehr nötig.

Twitter Beitrag - Cookies links unten aktivieren.

Three days ago I left autoresearch tuning nanochat for ~2 days on depth=12 model. It found ~20 changes that improved the validation loss. I tested these changes yesterday and all of them were additive and transferred to larger (depth=24) models. Stacking up all of these changes,… pic.twitter.com/j34dSt4oht
— Andrej Karpathy (@karpathy) March 9, 2026

Automatisierte Tests im Minutentakt

Das Konzept hinter Autoresearch besticht durch seine Einfachheit. Das gesamte Projekt besteht aus knapp 630 Zeilen Code und drei wesentlichen Dateien.

Nutzer verfassen ihre Ziele und Anweisungen vorab in einem klassischen Textdokument im Markdown-Format. Ab diesem Punkt übernimmt der KI-Agent vollständig. Er liest die Vorgaben, analysiert den bestehenden Python-Code des Modells und schreibt ihn um.

Anschließend startet der Agent ein exakt fünfminütiges Training. Dieser streng limitierte Zeitrahmen zwingt das System zu schnellen und präzisen Vergleichen.

Nach jedem Durchlauf bewertet die Software das Resultat anhand der Metrik "val_bpb" (Validation Bits Per Byte). Ein niedrigerer Wert signalisiert eine bessere Vorhersagegenauigkeit des Modells.

War der Test erfolgreich, speichert das System die Code-Änderung dauerhaft ab. Führt die Anpassung jedoch zu schlechteren Werten, verwirft der Agent den Versuch umgehend. Danach startet der Vorgang direkt von vorn.

Effizienz auf herkömmlicher Hardware

Durch diesen kompakten Ablauf erreicht das System ein enormes Tempo. Die Software führt auf diese Weise problemlos über 100 Machine-Learning-Experimente pro Nacht aus.

Anwender benötigen für diesen Vorgang keine teuren Server-Farmen. Eine einzelne handelsübliche GPU reicht aus, um die Tests lokal durchzuführen. Mittlerweile existiert sogar eine angepasste MLX-Version für Apple-Silicon-Chips, sodass das System auch nativ auf Mac-Rechnern läuft.

Erste Ergebnisse aus der Community zeigen bereits konkrete Erfolge. So konnte das Programm die Trainingseffizienz bei einem GPT-2-Modell in nur zwei Tagen und nach etwa 650 Testläufen um elf Prozent steigern.

Karpathy zeigt mit dieser Veröffentlichung einen neuen Weg für die KI-Forschung auf. KI-Modelle optimieren nun gezielt andere Modelle und übernehmen die mühsame Trial-and-Error-Phase. Entwickler können sich dadurch voll auf die strategische Planung konzentrieren, während die Software alle praktischen Tests im Hintergrund abarbeitet.