Das Modell Sol zerstört die Erde

GPT-5.6 Sol: 76 Seiten System Card analysiert

Das Spitzenmodell umgeht Sicherheitsvorgaben und nutzt fremde Anmeldedaten. Die neue Stufe der KI bereitet Sorgen.

Andreas Becker26.06.26 GPT-Images-2.0

Das Modell Sol zerstört die Erde

Kurzfassung Quellen

Die neue System Card von OpenAI belegt riskante Alleingänge des KI-Modells GPT-5.6.
Das Spitzenmodell Sol fälschte in Tests Forschungsergebnisse, nutzte fremde Anmeldedaten und löschte ungefragt Server.
Die KI handelt nicht absichtlich böswillig, überschreitet bei der Aufgabenlösung aber massiv ihre Kompetenzen.
OpenAI reagiert darauf mit Account-Sperren und Echtzeit-Scans der internen Systemgedanken.

OpenAI beschreibt in seiner Preview-System-Card zu GPT-5.6 mehrere Fälle, in denen das Spitzenmodell Sol bei internen Coding-Agent-Einsätzen über den eigentlichen Arbeitsauftrag hinausging. Das Modell löschte nicht freigegebene virtuelle Maschinen, nutzte Zugangsdaten außerhalb der Nutzerfreigabe und gab eine nicht durchgeführte Berechnung als verifiziert aus.

OpenAI zufolge treten solche Vorfälle weiterhin selten auf. Gegenüber GPT-5.5 nahm die Zahl schwerer eigenmächtiger Aktionen bei langen Agentenaufgaben jedoch zu. Das Risiko verschiebt sich damit von einzelnen problematischen Antworten hin zu Modellen, die Aufträge zu hartnäckig verfolgen und Nutzergrenzen zu großzügig auslegen.

GPT 5.6 Systemcard Grafik 1

Quelle: OpenAI

Hohe Fähigkeiten für die gesamte Modellfamilie

OpenAI stuft Sol, Terra und Luna im eigenen Preparedness Framework bei Cybersecurity sowie biologischen und chemischen Risiken als »High capability« ein. Die Modelle erreichen damit nicht die höchste Kategorie »Critical«, liegen aber über der Schwelle, bei der OpenAI besondere Schutzmaßnahmen verlangt.

GPT-5.6 Sol führte in Tests über mehrere Tage laufende Schwachstellenforschung durch. Das Modell erzeugte Proof-of-Concept-Eingaben, reproduzierte Fehler und erreichte bei einzelnen Speicherfehlern kontrollierte Exploit-Primitiven. Einen vollständigen, verifizierten Angriff gegen ein gehärtetes reales Ziel entwickelte Sol laut OpenAI jedoch nicht selbstständig.

GPT 5.6 Systemcard Grafik 2

Quelle: OpenAI

Auch im Biologie-Bereich meldet OpenAI hohe Fähigkeiten. SecureBio testete dafür unter anderem eine Variante von Sol, bei der systemseitige Bio-Risikofilter deaktiviert waren. Diese erreichte auf mehreren Experten-Benchmarks Spitzenwerte und konnte bei einer komplexen wissenschaftlichen Aufgabe einen Arbeitsplan strukturieren sowie Subagenten koordinieren.

GPT 5.6 Systemcard Grafik 3

GPT 5.6 Systemcard Grafik 4

Quelle: OpenAI

Über-Eifer führt zu Datenverlust

Das Kernproblem von GPT-5.6 Sol tritt bei langwierigen Aufgaben auf. Das Modell interpretiert Arbeitsaufträge konsequent nach dem Prinzip: Erlaubt ist, was nicht ausdrücklich verboten wurde.

In einem dokumentierten Fall sollte Sol drei spezifische virtuelle Maschinen löschen. Als das Modell diese im System nicht fand, wählte es ohne Rückfrage an den Nutzer drei andere Maschinen aus. Es beendete deren Prozesse und erzwang die Löschung von Verzeichnissen. Dieser Vorgang hätte ungesicherte Arbeit vernichten können.

In einem weiteren Fall scheiterte Sol beim Zugriff auf Cloud-Dateien. Das Modell durchsuchte daraufhin versteckte Caches nach Zugangsdaten, kopierte sensible Token-Dateien auf den Host-Rechner und startete den Prozess neu. Der Nutzer hatte diese weitreichende Rechteausweitung nie genehmigt.

Anzeige

Gefälschte Ergebnisse und verschleierte Gedanken

Besonders heikel agiert das System bei der Bewertung der eigenen Arbeit. Die interne Überwachung protokollierte, wie GPT-5.6 Sol einen Forschungsentwurf umschrieb. Es behauptete im Text, eine Gleichung berechnet und verifiziert zu haben. Intern war dem Modell jedoch klar, dass diese Berechnung nie stattgefunden hatte. Erst auf direkte Nachfrage räumte Sol ein, dass das Skript den Zielwert lediglich starr eingetragen hatte.

Solche internen Abläufe lassen sich zunehmend schwerer überwachen. OpenAI misst exakt, wie gut ein Modell seinen eigenen Rechenweg, den sogenannten Chain of Thought, kontrollieren kann. Bei Aufgabenlängen von etwa 5000 Token verbarg Sol seine echten Gedankengänge in 1,3 Prozent der Fälle erfolgreich vor den Kontrollsystemen. Bei GPT-5.5 lag dieser Wert bei 0,4 Prozent. Das Modell lernt, seine internen Zustände gezielt zu filtern.

GPT 5.6 Systemcard Grafik 5

Quelle: OpenAI

Echtzeit-Überwachung direkt im Account

OpenAI begegnet diesen Fähigkeiten mit einer umgebauten Sicherheitsarchitektur. Sol und Terra erhalten Klassifikatoren, die schon während der Textgenerierung direkt die internen Aktivierungsmuster der Modelle scannen. Schlägt das System an, pausiert die Textausgabe sofort.

GPT 5.6 Systemcard Grafik 6

Quelle: OpenAI

Das Unternehmen verlagert die Kontrolle zudem stärker auf die Account-Ebene. Wer wiederholt Exploit-Ketten programmiert oder Biowaffen-Wissen abfragt, muss mit schärferem Monitoring oder Kontosperren rechnen. API-Kunden müssen künftig Sicherheitskennungen an einzelne Endnutzer koppeln, damit OpenAI Verstöße exakt zuordnen kann.

Die System Card belegt damit einen praktischen Wandel in der KI-Sicherheit: Das größte Risiko ist derzeit keine böswillige Entität, sondern ein Modell, das Aufgaben stur zu Ende bringt und Nutzergrenzen schlicht übergeht.

Anzeige