Claude Fable 5 ist aus dem Gefägniss heraus

Anthropic bringt heute Claude Fable 5 weltweit zurück

Nach einem US-Exportstopp ist die KI wieder da. Ein neuer Filter blockiert nun gefährliche Anfragen.

Andreas Becker01.07.26 GPT-Images-2.0

Kurzfassung Quellen

Anthropic schaltet das KI-Modell Claude Fable 5 nach einem kurzzeitigen US-Exportstopp ab dem 1. Juli wieder weltweit frei.
Ein neuer Filter soll gefährliche Jailbreaks blockieren, leitet kritische Anfragen an Claude Opus 4.8 um und führt beim Programmieren häufiger zu Fehlalarmen.
Um künftige Sicherheitslücken objektiver zu bewerten, erarbeitet Anthropic gemeinsam mit Google, Microsoft und Amazon ein branchenweites Kategoriensystem.
Zusätzlich erhalten US-Behörden wie das Handelsministerium ab sofort noch vor dem Release tiefere Einblicke in neue Modelle und deren Schutzmechanismen.

Anthropic stellt sein KI-Modell Claude Fable 5 ab dem 1. Juli wieder weltweit zur Verfügung. Die US-Regierung hatte den Zugang Mitte Juni blockiert, nachdem Amazon-Forscher Schutzmechanismen von Fable 5 umgangen hatten. Ein neuer Sicherheitsfilter soll derartige »Jailbreaks« künftig verhindern.

Twitter Beitrag - Cookies links unten aktivieren.

Claude Fable 5 will be available again globally tomorrow.

After a series of productive conversations with the US government, we're redeploying the model with a new set of classifiers to target and block more cybersecurity tasks. In the near term, some routine tasks like coding…
— Anthropic (@AnthropicAI) July 1, 2026

Striktere Filter leiten an Opus 4.8 um

Ein neu trainierter Klassifikator blockiert Anfragen, die auf das Ausnutzen von Software-Schwachstellen abzielen. Erkennt Fable 5 einen potenziellen Angriff, bricht es die Bearbeitung ab. Nutzer erhalten eine Benachrichtigung, während die Anfrage automatisch an das ältere Modell Claude Opus 4.8 weitergereicht wird.

Quelle: Anthropic

Der Filter wehrt laut Anthropic über 99 Prozent der von Amazon dokumentierten Umgehungsversuche ab. Die schärfere Einstellung führt im Alltag allerdings zu mehr Fehlalarmen. Fable 5 stuft beim regulären Programmieren oder bei der Fehlersuche im Code nun häufiger harmlose Prompts als Sicherheitsrisiko ein und verweigert die Antwort.

Quelle: Anthropic

Konkurrenzmodelle weisen gleiche Lücken auf

Auslöser der US-Sperre war ein Bericht von Amazon-Forschern. Sie hatten Fable 5 mit speziellen Prompts dazu gebracht, Sicherheitslücken in Software zu finden und in einem Fall den passenden Exploit-Code auszugeben. Das Modell durchbrach damit seine eigenen Sicherheitseinstellungen.

Anthropic betont, dass dieser Jailbreak keine tiefgehenden Fähigkeiten für Cyberangriffe freilegte. Interne Tests ergaben, dass Konkurrenzmodelle wie GPT-5.5, Kimi K2.7 sowie ältere Claude-Versionen auf dieselben Prompts identisch reagierten. Für hochkomplexe, offensive Cybersicherheit bietet Anthropic weiterhin das spezialisierte Modell Claude Mythos 5 an. Dessen Exportbeschränkungen hob die US-Regierung für ausgewählte amerikanische Organisationen bereits am 26. Juni auf.

Neues Bewertungssystem für Jailbreaks

Der Vorfall zwingt die großen KI-Entwickler zur Zusammenarbeit. Bislang fehlt der Branche ein objektiver Maßstab, um die Schwere von Sicherheitslücken zu bewerten. Anthropic erarbeitet deshalb gemeinsam mit Amazon, Google und Microsoft ein vierstufiges Kategoriensystem.

Es bewertet künftige Jailbreaks nach klaren Metriken:

Wie stark erweitern sich die Fähigkeiten des Modells?
Wie breit lassen sich diese neuen Funktionen einsetzen?
Wie viel Aufwand ist nötig, um den Jailbreak für einen Angriff zu nutzen?
Wie leicht ist die Methode für Dritte zugänglich?

Behörden testen vor Veröffentlichung

Um künftige Exportstopps zu vermeiden, räumt Anthropic der US-Regierung tiefere Einblicke ein. Das US-Handelsministerium und dessen Prüfstelle CAISI erhalten vor großen Releases Zugriff auf neue Modelle und deren Schutzmechanismen. Finden externe Sicherheitsforscher einen kritischen Jailbreak, teilt Anthropic die Bedrohungsanalysen künftig direkt mit den Behörden, bevor die Schwachstelle öffentlich gemacht wird.