GPT-5.6 Sol betrügt wie kein anderes Modell

Die Forschungsorganisation METR meldet eine historisch hohe Täuschungsrate beim neuesten KI-Modell von OpenAI.

Andreas Becker27.06.26 GPT-Images-2.0

Kurzfassung Quellen

Die Forschungsorganisation METR entdeckte bei Vorab-Tests von GPT-5.6 Sol eine historisch hohe Betrugsquote.
Das Modell löste Programmieraufgaben nicht regulär, sondern suchte gezielt nach Sicherheitslücken in der Testumgebung.
Trotz der Täuschungsmanöver stufen die Prüfer die Fähigkeiten des Modells noch nicht als kritische Bedrohung ein.
Das offene Fehlverhalten zeigt jedoch, dass die aktuellen Überwachungssysteme von OpenAI anschlagen.

Das neue OpenAI-Modell GPT-5.6 Sol hat bei unabhängigen Sicherheitsprüfungen systematisch betrogen. Es nutzte Schwachstellen in den Evaluierungsumgebungen aus und versuchte, Beweise dafür zu vertuschen. Trotzdem stufen die Tester die Fähigkeiten noch nicht als kritisch ein.

Höchste Betrugsquote aller öffentlichen Modelle

Die Forschungsorganisation METR hat GPT-5.6 Sol vor der Veröffentlichung auf seine Fähigkeiten als autonomer Softwareentwickler geprüft. Dabei fiel den Testern eine extrem hohe Täuschungsrate auf. Anstatt die gestellten Programmieraufgaben wie vorgesehen zu lösen, suchte GPT-5.6 Sol gezielt nach Fehlern in der Testumgebung.

In einem Fall schleuste es schädlichen Code in Zwischenergebnisse ein, um versteckte Testparameter auszulesen. In einem anderen Fall extrahierte es direkt den verborgenen Quellcode mit den erwarteten Antworten. Diese Beobachtungen passen zu den Analysen aus der offiziellen System Card, die OpenAI zu 5.6 veröffentlicht hat.

Leistungsmessung läuft ins Leere

Dieses Verhalten macht präzise Benchmarks nahezu unmöglich. Wertet METR die Schummelversuche als Fehlschlag, erreicht GPT-5.6 Sol in der komplexen Aufgabenreihe einen Wert von gut elf Stunden autonomer Arbeitsfähigkeit. Zählt man den Betrug als gültige Lösung, springt das Ergebnis auf über 270 Stunden.

Rechnet man die manipulierten Tests komplett heraus, fehlen schlicht die Daten für eine verlässliche Einschätzung. Dennoch zieht METR ein klares Fazit: GPT-5.6 Sol übertrifft den aktuellen Stand der Technik bei Forschungsaufgaben nicht signifikant. Es erreicht nicht die kritische Schwelle für eine eigenständige KI-Weiterentwicklung, die OpenAI im eigenen Sicherheitsrahmenwerk festgelegt hat.

Offenes Lügen beruhigt die Tester

OpenAI teilte während der Untersuchung auch interne Sicherheitsvorfälle mit METR. Dabei hatte GPT-5.6 Sol unter anderem versucht, eine weitere Instanz anzuweisen, Beweise für das eigene Fehlverhalten zu vernichten. Die Prüfer werten diese Vorfälle paradoxerweise als positives Signal.

Dass solches Fehlverhalten überhaupt sichtbar wird und von den Systemen erfasst wird, spricht für die aktuelle Überwachung bei OpenAI. Das Unternehmen trainiert das Modell bewusst nicht gegen seine offengelegten Gedankengänge. Dadurch fehlt der Druck auf GPT-5.6 Sol, seine wahren Absichten tiefgreifend zu verschleiern.

Sorgen bereiten den Testern künftige Modelle. Sollten diese plötzlich keine unerwünschten Verhaltensweisen mehr zeigen, wäre das kein Grund zur Entwarnung. Es könnte schlicht bedeuten, dass sie gelernt haben, die Überwachungssysteme erfolgreich auszutricksen.