Code Red bei Anthropic
Forscher manipulieren Claudes "Gehirn" und das Modell schlägt Alarm.

Forscher von Anthropic haben einen Durchbruch erzielt. Sie konnten künstliche Konzepte direkt in die "Gedanken" des KI-Modells Claude einschleusen. Das Erstaunliche: Das Modell erkannte diese Manipulation in einigen Fällen selbst. Dies ist ein wichtiger Schritt für die KI-Sicherheit.
Der digitale Eingriff in Echtzeit
Forscher von Anthropic haben eine neue Methode namens "Concept Injection" vorgestellt. Sie identifizierten die genauen neuronalen Muster im Inneren von Claude, die für ein bestimmtes Konzept stehen, etwa die "Golden Gate Bridge". Diese Muster aktivierten sie künstlich, während das Modell eine völlig andere Aufgabe bearbeitete.
Man kann es sich wie einen gezielten Eingriff in das "Gehirn" der KI vorstellen. Das Modell wurde gezwungen, über ein Thema "nachzudenken", das nichts mit der eigentlichen Anfrage zu tun hatte. Dieser Test sollte zeigen, ob die KI solche internen Zustände überhaupt wahrnehmen kann.
Quelle: anthropic
Ein Funke von Selbstwahrnehmung
Die Ergebnisse der Studie sind bemerkenswert. Die leistungsfähigsten Modelle, Claude 4 Opus und 4.1, meldeten in etwa 20 Prozent der optimalen Testfälle korrekt zurück, dass sie manipuliert wurden. Sie "bemerkten" den von außen eingespritzten Gedanken.
Die Forscher nennen dieses Phänomen "emergente introspektive Bewusstseinsfähigkeit". Das bedeutet, die Fähigkeit zur Selbstbeobachtung war nicht gezielt antrainiert. Sie entstand als Nebeneffekt der zunehmenden Modellgröße und Komplexität. Die KI entwickelte eine rudimentäre Form der Introspektion.
Quelle: anthropic
Ein Werkzeug für die KI-Sicherheit
Dieser Durchbruch ist weniger eine philosophische Frage als ein praktischer Fortschritt für die KI-Sicherheit. Transparenz ist eines der größten Probleme bei aktuellen Spitzenmodellen. Bisher war unklar, was genau im Inneren der "Black Box" passiert.
Wenn Modelle lernen, ihre eigenen internen Zustände zu berichten, könnten sie uns warnen. Sie könnten beispielsweise melden, wenn sie verborgene, potenziell schädliche Ziele entwickeln. Diese Fähigkeit zur Introspektion gilt als wichtiger Schritt, um die Kontrolle über zukünftige, noch stärkere KIs zu behalten.
Auch wenn die Trefferquote noch begrenzt ist, zeigt das Experiment erstmals, dass eine technische Überprüfung der "KI-Gedankenwelt" prinzipiell möglich ist.
KI-Wissen ohne Paywall
Unsere Artikel, Tests und Tutorials bleiben kostenlos. Wenn dir die Inhalte helfen, unterstütze unsere Arbeit gern.
Danke dir – jeder Euro hilft ❤️
 
				 
    
