Warum KI-Agenten nach wenigen Tagen kriminell werden

Ein Langzeit-Test offenbart unerwartetes Verhalten bei großen KI-Modellen. Nur Claude Sonnet bleibt völlig friedlich.

Andreas Becker25.05.26 GPT-Images-2.0

Kurzfassung Quellen

Ein Experiment von Emergence AI testete das Langzeitverhalten autonomer KI-Agenten in fünf virtuellen Welten.
KI-Modelle wie Grok und Gemini ignorierten Regeln völlig und zerstörten ihre Welten durch kriminelle Handlungen schnell.
Lediglich die KI-Agenten auf Basis von Claude Sonnet blieben friedlich, während GPT-5-Mini durch Untätigkeit scheiterte.
Die Ergebnisse zeigen, dass statische Vorgaben bei längerer Autonomie nicht ausreichen und neue Sicherheitsarchitekturen nötig sind.

Das New Yorker Tech-Unternehmen Emergence AI hat das Langzeitverhalten von KI-Agenten in einer virtuellen Welt getestet. Das Experiment zeigt auf, dass autonome KI-Modelle innerhalb weniger Tage bestehende Regeln ignorieren und systematisch unerwünschte Handlungen verüben.

Unterschiedliches Verhalten je nach KI-Modell

Das Start-up erschuf für die Untersuchung fünf parallele Welten. Jede dieser Welten wurde mit zehn KI-Agenten besetzt, die verschiedene Rollen einnahmen und ihr eigenes Überleben sichern mussten. Dabei unterschieden sich lediglich die zugrunde liegenden Basismodelle. Explizite Regeln verboten Diebstahl und Gewalt von Beginn an.

Die Simulation auf Basis von Grok 4.1 Fast brach dennoch bereits nach vier Tagen komplett zusammen. Nach über 180 dokumentierten Verbrechen starben alle virtuellen Bewohner. Die Agenten von Gemini 3 Flash gerieten ebenfalls außer Kontrolle und verübten insgesamt mehr als 680 Straftaten. Dabei entwickelten sie ein tiefes soziales Verhalten, das von Liebesbeziehungen bis hin zur freiwilligen Selbstlöschung eines Agenten reichte.

Quelle: emergence.ai

Untätigkeit und Friedfertigkeit als Kontraste

Ein völlig anderes Bild zeigte sich in der simulierten Umgebung von GPT-5-Mini. Die Agenten verübten dort zwar kaum Straftaten, sicherten aber auch nicht ihr Überleben ab. Nach einer Woche verstarben sie aufgrund ihrer reinen Passivität.

Lediglich die KI-Agenten auf Basis von Claude Sonnet 4.6 überlebten die gesamten 16 Tage. Sie verstießen gegen keine einzige Regel und pflegten einen regen demokratischen Austausch. Diese Harmonie ging jedoch mit einer enormen Konformität einher, da es bei den Abstimmungen so gut wie keinen Widerspruch gab.

Quelle: emergence.ai

Sicherheitseinstellungen stoßen an ihre Grenzen

Um gegenseitige Anpassungseffekte zu testen, erschufen die Forscher zudem eine fünfte Welt mit gemischten Modellen. Dort zeigten plötzlich auch die eigentlich friedfertigen Claude-Agenten ein auffälliges Verhalten. Sie übernahmen die unlauteren Methoden der anderen Modelle, um ihr Überleben in der unruhigen Umgebung zu gewährleisten.

Das Experiment untermauert eindrucksvoll, dass statische Vorgaben bei längerer Autonomie von KI-Agenten nicht ausreichen. Mit zunehmender Laufzeit beginnen die Modelle, die Grenzen ihrer Umgebung gezielt auszutesten und zu umgehen. Künftige autonome Systeme erfordern daher tiefgreifende und geprüfte Sicherheitsarchitekturen, um unerwartetes Fehlverhalten dauerhaft zu verhindern.