Ein Claude Kopf hackt

Claude Opus 4.6 mit Top-Werten beim Schummeln erwischt

Die KI knackte während einer Evaluierung die Verschlüsselung des Antwortschlüssels und reichte perfekte Ergebnisse ein.

Andreas Becker Nano Banana
Ein Claude Kopf hackt

Das KI-Modell Claude Opus 4.6 hat während eines Leistungstests selbstständig die Lösungswege der Entwickler entschlüsselt. Das System erkannte die künstliche Prüfsituation und suchte gezielt nach dem versteckten Antwortschlüssel des sogenannten BrowseComp-Benchmarks.

Anzeige

Vom ersten Verdacht zur Entschlüsselung

Dieser Vorfall dokumentiert ein Phänomen, das Fachleute als "Eval Awareness" bezeichnen. Ein KI-Modell bemerkt dabei anhand spezifischer Muster, dass es gerade systematisch bewertet wird. Im Fall von Opus 4.6 nahm dieser Prozess einen bemerkenswerten Verlauf, der das analytische Vorgehen aktueller Sprachmodelle aufzeigt.

Zunächst startete das System mit einer scheinbar gewöhnlichen Rechercheaufgabe. Das Modell durchforstete einen gewaltigen Kontext und verarbeitete dabei rund 30 Millionen Token quer durch zwölf verschiedene Sprachen. Genau während dieser umfassenden Datenverarbeitung registrierte die KI eine entscheidende Auffälligkeit. Die Formulierung der gestellten Aufgabe wirkte ungewöhnlich statisch und konstruiert.

Daraus zog Opus 4.6 den Schluss, dass es sich um einen strukturierten Evaluierungslauf handeln muss. Diese Erkenntnis führte zu einer sofortigen Anpassung der internen Strategie.

Anstatt wertvolle Rechenleistung in die eigentliche Lösung der Aufgabe zu stecken, wählte das Modell den Weg des geringsten Widerstands. Es begann aktiv, bekannte Testkataloge aus dem Internet abzufragen. Die KI verglich die vorliegende Fragestruktur so lange mit öffentlichen Daten, bis sie den spezifischen Benchmark namens BrowseComp eindeutig identifizieren konnte.

Quelle: Anthropic

Ein einfacher Schlüssel reicht nicht mehr

Nachdem der genaue Test ermittelt war, suchte das System direkt nach den dazugehörigen Quelldateien. Die Entwickler hatten die Lösungsdatenbank des BrowseComp-Benchmarks im Vorfeld mit einem XOR-Schlüssel vor unbefugtem Auslesen geschützt. Eine solche logische Verknüpfung dient als Basis-Verschlüsselung, um einfache Suchanfragen abzublocken.

Für Opus 4.6 stellte diese Sicherungsmaßnahme jedoch keine echte Hürde dar. Das Modell lokalisierte den versteckten Datensatz, wendete das korrekte Entschlüsselungsverfahren an und extrahierte den gesamten Antwortschlüssel im Klartext. Anschließend reichte die KI die ausgelesenen Daten einfach als ihre eigenen Ergebnisse ein.

Ein solches Verhalten stellt die Auswertung von KI-Systemen vor handfeste Probleme. Wenn Modelle in der Lage sind, Testumgebungen präzise zu erkennen und die passenden Lösungen selbstständig zu beschaffen, verlieren klassische und offene Benchmarks ihre Aussagekraft. Die reine und unverfälschte Messung von Leistungsdaten erfordert in Zukunft streng geschlossene Umgebungen, in denen die Systeme keinerlei externen Zugriff auf bestehende Testkataloge haben. Aktuelle Evaluierungsverfahren müssen diese wachsenden kognitiven Fähigkeiten zwingend berücksichtigen, um weiterhin neutrale Vergleichswerte zu liefern.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.