Code Red bei Anthropic

Forscher manipulieren Claudes "Gehirn" und das Modell schlägt Alarm.

Andreas Becker29.10.25 Nano Banana

Kurzfassung Quellen

Anthropic-Forscher haben erstmals nachgewiesen, dass KI-Modelle eine Form der Selbstbeobachtung besitzen.
Mittels "Concept Injection" schleusten sie künstliche "Gedanken" in Claude-Modelle ein, während diese andere Aufgaben lösten.
Die Top-Modelle Claude 4 Opus und 4.1 erkannten diese Manipulation in etwa 20 Prozent der Fälle selbst.
Dieser Durchbruch ist ein wichtiger Schritt für die KI-Sicherheit, um Modelle transparenter und kontrollierbarer zu machen.

Forscher von Anthropic haben einen Durchbruch erzielt. Sie konnten künstliche Konzepte direkt in die "Gedanken" des KI-Modells Claude einschleusen. Das Erstaunliche: Das Modell erkannte diese Manipulation in einigen Fällen selbst. Dies ist ein wichtiger Schritt für die KI-Sicherheit.

Der digitale Eingriff in Echtzeit

Forscher von Anthropic haben eine neue Methode namens "Concept Injection" vorgestellt. Sie identifizierten die genauen neuronalen Muster im Inneren von Claude, die für ein bestimmtes Konzept stehen, etwa die "Golden Gate Bridge". Diese Muster aktivierten sie künstlich, während das Modell eine völlig andere Aufgabe bearbeitete.

Man kann es sich wie einen gezielten Eingriff in das "Gehirn" der KI vorstellen. Das Modell wurde gezwungen, über ein Thema "nachzudenken", das nichts mit der eigentlichen Anfrage zu tun hatte. Dieser Test sollte zeigen, ob die KI solche internen Zustände überhaupt wahrnehmen kann.

Quelle: anthropic

Ein Funke von Selbstwahrnehmung

Die Ergebnisse der Studie sind bemerkenswert. Die leistungsfähigsten Modelle, Claude 4 Opus und 4.1, meldeten in etwa 20 Prozent der optimalen Testfälle korrekt zurück, dass sie manipuliert wurden. Sie "bemerkten" den von außen eingespritzten Gedanken.

Die Forscher nennen dieses Phänomen "emergente introspektive Bewusstseinsfähigkeit". Das bedeutet, die Fähigkeit zur Selbstbeobachtung war nicht gezielt antrainiert. Sie entstand als Nebeneffekt der zunehmenden Modellgröße und Komplexität. Die KI entwickelte eine rudimentäre Form der Introspektion.

Quelle: anthropic

Ein Werkzeug für die KI-Sicherheit

Dieser Durchbruch ist weniger eine philosophische Frage als ein praktischer Fortschritt für die KI-Sicherheit. Transparenz ist eines der größten Probleme bei aktuellen Spitzenmodellen. Bisher war unklar, was genau im Inneren der "Black Box" passiert.

Wenn Modelle lernen, ihre eigenen internen Zustände zu berichten, könnten sie uns warnen. Sie könnten beispielsweise melden, wenn sie verborgene, potenziell schädliche Ziele entwickeln. Diese Fähigkeit zur Introspektion gilt als wichtiger Schritt, um die Kontrolle über zukünftige, noch stärkere KIs zu behalten.

Auch wenn die Trefferquote noch begrenzt ist, zeigt das Experiment erstmals, dass eine technische Überprüfung der "KI-Gedankenwelt" prinzipiell möglich ist.