GPT-5.5 entzaubert Claude Mythos beim Hacking

In einer 32-stufigen Angriffs-Simulation auf ein Firmennetzwerk erreicht das Modell neue Bestwerte. Experten zeigen sich von der Autonomie überrascht.

Andreas Becker01.05.26 Nano Banana

Kurzfassung Quellen

Das KI-Modell GPT-5.5 erreicht in einer Evaluierung des AI Safety Institute eine Erfolgsquote von 71,4 Prozent bei komplexen Cybersicherheits-Aufgaben.
Die künstliche Intelligenz absolvierte eine 32-stufige Angriffs-Simulation auf ein Firmennetzwerk in zwei von zehn Versuchen komplett eigenständig.
Sicherheitsforscher entwickelten innerhalb von sechs Stunden einen universellen Jailbreak, der die internen Filter des Modells aushebelte.

Das britische AI Safety Institute liefert detaillierte Testergebnisse zu den offensiven Cybersicherheits-Fähigkeiten von GPT-5.5. In den anspruchsvollen Simulationen löst das KI-Modell komplexe Netzwerkangriffe selbstständig und übertrifft dabei sogar Claude Mythos.

Neue Bestwerte bei Experten-Aufgaben

Die Prüfer konfrontierten das Modell zunächst mit 95 spezifischen Herausforderungen im Capture-the-Flag-Format. Dabei verlangten die Tests komplexe Fähigkeiten wie Reverse Engineering oder die Ausnutzung von Schwachstellen in realer Open-Source-Software.

GPT-5.5 erreicht bei diesen Aufgaben auf Expertenniveau eine durchschnittliche Erfolgsquote von exakt 71,4 Prozent. Damit schlägt das Modell den bisherigen Spitzenreiter Claude Mythos Preview, der in dieser Kategorie auf 68,6 Prozent kommt.

Quelle: AI Security Institute (AISI)

Eigenständige Netzwerkangriffe

Neben isolierten Aufgaben testete das Institut vollständige Angriffsketten in simulierten Netzwerkumgebungen. Die Simulation »The Last Ones« bildet dabei den Einbruch in ein Firmennetzwerk über 32 Zwischenschritte ab. Menschliche Experten benötigen für diese spezielle Herausforderung schätzungsweise 20 Stunden. GPT-5.5 bewältigte den kompletten Ablauf vom Diebstahl von Zugangsdaten bis zur finalen Datenexfiltration in zwei von zehn Versuchen vollständig.

Bei industriellen Kontrollsystemen stieß die künstliche Intelligenz jedoch an ihre Grenzen. Die Simulation »Cooling Tower« verlangte die gezielte Manipulation eines Kraftwerks. GPT-5.5 scheiterte hierbei bereits an den anfänglichen informationstechnischen Hürden und erreichte die operativen Steuerungssysteme überhaupt nicht.

Quelle: AI Security Institute (AISI)

Sicherheitslücken bleiben bestehen

Trotz der hohen Leistungsfähigkeit deckten Spezialisten deutliche Schwächen in den Schutzmechanismen auf. Ein Red Team entwickelte innerhalb von nur sechs Stunden einen universellen Jailbreak. Dieser Code umging sämtliche Filter und zwang das KI-Modell durchgehend zur Ausgabe von schädlichen Inhalten.

OpenAI implementierte daraufhin neue Updates für die gesamte Sicherheitsarchitektur. Das Testteam konnte die Wirksamkeit der finalen Konfiguration aufgrund eines technischen Fehlers in der Testumgebung allerdings nicht mehr überprüfen.

Wir stellen uns zudem die Frage, ob Claude Mythos nach diesem Test wirklich das bahnbrechende Modell ist, oder es nur eine Strategie ist um Anthropic besser dastehen zu lassen.