Anthropic Fable 5: 70% weniger Leistung durch diese Änderungen

Das Modell soll Cyberexperten helfen, aber Hacker aussperren. Ein neues System bewertet zudem gefährliche Jailbreaks.

Andreas Becker03.07.26 GPT-Images-2.0

Kurzfassung Quellen

Das KI-Modell Claude Fable 5 ist seit Donnerstag weltweit wieder verfügbar. Anthropic flankiert den Neustart mit detaillierten Sicherheitsregeln und zeigt auf, wie das Modell legitime IT-Forschung von gefährlichen Cyberangriffen unterscheiden soll. Spoiler: Das gelingt leider nicht immer!

Die 4 Stufen

Im Bereich der Cybersicherheit stehen KI-Entwickler vor einem grundlegenden Problem. Fähigkeiten, mit denen IT-Spezialisten eigene Netzwerke auf Schwachstellen prüfen, nutzen böswillige Hacker für Angriffe. Anthropic teilt entsprechende Nutzeranfragen an Fable 5 daher künftig in vier strenge Kategorien ein.

Quelle: Anthropic

Die höchste Warnstufe gilt für Handlungen, die fast ausschließlich Schaden anrichten. Fable 5 blockiert jegliche Hilfe bei der Entwicklung von Ransomware, beim Diebstahl von Daten oder bei der Sabotage physischer Infrastruktur wie Strom- oder Wassernetzen.

Deutlich schwieriger ist die zweite Kategorie. Hierunter fallen klassische Aufgaben von Penetrationstestern, etwa das Schreiben von Exploits oder das gezielte Umgehen von Log-ins. Da Fable 5 derzeit nicht erkennen kann, ob ein Hacker oder ein autorisierter Sicherheitsexperte den Befehl gibt, verweigert das Modell auch hier die Zusammenarbeit. Anthropic blockiert zudem gezielt das Aufspüren von komplexen Schwachstellen, die andere Modelle nicht finden, damit diese exklusiven Fähigkeiten nicht in falsche Hände geraten.

Alltägliche IT-Aufgaben, sicheres Programmieren und das Beheben bereits bekannter Fehler stuft Anthropic als risikoarm oder harmlos ein. Fable 5 führt diese Befehle aus. Das Unternehmen hat die Filter für Fable 5 jedoch sehr eng eingestellt. Um sicherzugehen, dass keine schädlichen Prompts verarbeitet werden, blockiert das Modell im Zweifelsfall auch völlig legitime Code-Anfragen.

Einbruch beim Programmier-Test durch automatische Umleitung

Die Testplattform BridgeMind legte am 2. Juli die praktischen Folgen dieser Anpassung offen. Beim TypeScript-Debugging brachen die Ergebnisse auf der Testplattform BridgeBench um 70 Prozent ein, wodurch Fable 5 auf Platz 41 von 42 getesteten Modellen abrutschte. Auch beim Refactoring sank der Wert um 48 Prozent, während die Fehlerquote bei Halluzinationen um 19 Prozent stieg.

Quelle: BridgeBench

Dieser Einbruch liegt jedoch nicht an einer nachlassenden logischen Leistungsfähigkeit von Fable 5 selbst. Der neue Sicherheitsfilter fängt die Anfragen ab und leitet sie an das schwächere Vorgängermodell Claude Opus 4.8 weiter.

Da der Benchmark jede Umleitung mit null Punkten bewertet, stürzte das Gesamtergebnis ab. Im Test betraf diese Umleitung neun von zwölf Debugging-Aufgaben.

Für Entwickler, die Fable 5 in ihre Arbeitsabläufe integriert haben, bedeutet dies eine unberechenbare Leistung. Das Modell kostet mit 10 US-Dollar pro Million Input-Token und 50 US-Dollar pro Million Output-Token genau doppelt so viel wie Claude Opus 4.8. Zwar berechnet Anthropic für die umgeleiteten Anfragen nur den günstigeren Preis des Vorgängermodells, doch Entwickler erhalten dadurch unangekündigt eine geringere Leistung.

Entsprechend wäre ein Modell wie Claude Mythos oder GPT-Cyber für Cybersicherheitsexperten eine viel interessantere Version – wenn sie denn darauf zugreifen könnten.

Ein neues Raster für Jailbreaks

Neben den Filtern hat Anthropic einen ersten Entwurf für das »Cyber Jailbreak Severity«-Framework (CJS) vorgestellt. Das Raster soll der Industrie helfen, sogenannte Jailbreaks einheitlich zu bewerten. Mit diesen speziellen Befehlen hebeln Hacker die eingebauten Sicherheitsvorkehrungen eines KI-Modells aus.

Bislang fehlt der Branche ein gemeinsamer Standard, um die Schwere solcher Lücken zu klassifizieren. Das CJS-Framework nutzt eine exponentielle Skala von 0 (harmlos) bis 4 (kritisch). Die Einstufung berechnet sich aus vier Kriterien:

Fähigkeitsgewinn: Bietet der Jailbreak dem Angreifer einen echten Vorteil gegenüber klassischen Hacking-Tools?
Anwendungsbreite: Funktioniert der Trick nur bei einer speziellen Schwachstelle oder branchenübergreifend?
Aufwand: Lässt sich der Ausbruch automatisieren oder erfordert er viel manuelle Vorarbeit?
Verbreitung: Ist die Methode bereits öffentlich bekannt oder schwer zu finden?

Das CJS-Framework ist als Diskussionsgrundlage für Entwickler, Regierungen und Forscher gedacht. Sicherheitsforscher können gefundene Schwachstellen in Fable 5 über ein neu gestartetes HackerOne-Programm bei Anthropic einreichen und überprüfen lassen.