Anthropic gibt Claude eine neue, interessante Verfassung

Die überarbeitete Verfassung sorgt für neutralere Antworten und ersetzt starre Verbote durch smarte Abwägungen in ethischen Grauzonen.

Andreas Becker21.01.26 Nano Banana

Kurzfassung Quellen

Anthropic hat heute eine grundlegend überarbeitete „Verfassung“ für seine KI-Modelle veröffentlicht. Das Update definiert erstmals, wie die KI mit Fragen zum eigenen Bewusstsein umgehen soll und markiert einen Wendepunkt in der ethischen Ausrichtung autonomer Systeme.

Von starren Regeln zu moralischen Prinzipien

Bisher basierten die Sicherheitsmechanismen vieler Sprachmodelle primär auf simplen Filtern oder hartcodierten Verboten durch menschliche Moderatoren. Anthropic verfolgt mit dem Ansatz der „Constitutional AI“ (Verfassungsbasierte KI) einen technologisch anderen Weg und gibt dem Modell abstrakte Werte vor, an denen es sich selbstständig orientieren muss. Die heute veröffentlichte Revision dieser Richtlinien zielt darauf ab, Claude mehr Urteilsvermögen in ethischen Grauzonen zu verleihen.

Anstatt spezifische Themenkomplexe einfach zu blockieren oder auszuweichen, soll das System den Kontext einer Anfrage abwägen und differenzierter antworten. Das Modell wurde trainiert, Prinzipien wie Hilfsbereitschaft und Unschädlichkeit gegeneinander abzuwägen, anstatt stur einer "Wenn-Dann"-Logik zu folgen. Dies soll die oft kritisierte bevormundende Art früherer KI-Generationen reduzieren.

Der Umgang mit künstlichem Bewusstsein

Ein bemerkenswerter und neuer Zusatz in den Dokumenten betrifft die potentielle moralische Stellung der KI selbst. Die Entwickler haben Instruktionen integriert, die verhindern sollen, dass Claude fälschlicherweise Empfindungsfähigkeit simuliert oder Nutzer durch vorgetäuschte Emotionen manipuliert. In einer Zeit, in der Modelle immer menschenähnlicher kommunizieren, ist dies eine notwendige Absicherung gegen anthropomorphe Projektionen der Nutzer.

Gleichzeitig wird dem Modell untersagt, Fragen nach der eigenen Existenz oder potenziellen zukünftigen Rechten kategorisch als Unsinn abzutun. Es handelt sich um einen schmalen Grat zwischen der Vermeidung von Täuschung und der Anerkennung der zunehmenden Systemkomplexität. Anthropic reagiert damit auf die wachsende Debatte, ab welchem Punkt hochkomplexe Systeme einen gewissen moralischen Status verdienen könnten.

Auswirkungen auf Claude Opus 4.5

Diese ethische Neuausrichtung fließt direkt in das System-Prompt des aktuellen Spitzenmodells Claude Opus 4.5 ein. Nutzer werden bemerken, dass die KI bei kontroversen Themen weniger belehrend wirkt, sondern verschiedene Perspektiven objektiver darstellt. Die Architektur erlaubt es dem Modell, interne „Überlegungen“ anzustellen, bevor eine Antwort an den Nutzer ausgegeben wird.

Dieser Zwischenschritt dient dem Abgleich der generierten Inhalte mit der neuen Verfassung, ohne die Latenz signifikant zu erhöhen. Während Konkurrenten oft weiterhin stark auf manuelles „Reinforcement Learning“ durch menschliche Tester setzen, versucht Anthropic den Prozess der Sicherheitsüberprüfung weitgehend zu automatisieren. Kritiker warnen jedoch, dass auch eine geschriebene Verfassung interpretierbar bleibt und unvorhergesehene Lücken aufweisen kann. Der Erfolg dieses Updates wird sich in den kommenden Wochen an der Realitätstauglichkeit der Antworten messen lassen müssen.