Claude Fable 5 ist aus dem Gefägniss heraus

Anthropic bringt heute Claude Fable 5 weltweit zurück

Nach einem US-Exportstopp ist die KI wieder da. Ein neuer Filter blockiert nun gefährliche Anfragen.

Andreas Becker GPT-Images-2.0
Claude Fable 5 ist aus dem Gefägniss heraus

Anthropic stellt sein KI-Modell Claude Fable 5 ab dem 1. Juli wieder weltweit zur Verfügung. Die US-Regierung hatte den Zugang Mitte Juni blockiert, nachdem Amazon-Forscher Schutzmechanismen von Fable 5 umgangen hatten. Ein neuer Sicherheitsfilter soll derartige »Jailbreaks« künftig verhindern.

Twitter Beitrag - Cookies links unten aktivieren.

Striktere Filter leiten an Opus 4.8 um

Ein neu trainierter Klassifikator blockiert Anfragen, die auf das Ausnutzen von Software-Schwachstellen abzielen. Erkennt Fable 5 einen potenziellen Angriff, bricht es die Bearbeitung ab. Nutzer erhalten eine Benachrichtigung, während die Anfrage automatisch an das ältere Modell Claude Opus 4.8 weitergereicht wird.

Quelle: Anthropic

Der Filter wehrt laut Anthropic über 99 Prozent der von Amazon dokumentierten Umgehungsversuche ab. Die schärfere Einstellung führt im Alltag allerdings zu mehr Fehlalarmen. Fable 5 stuft beim regulären Programmieren oder bei der Fehlersuche im Code nun häufiger harmlose Prompts als Sicherheitsrisiko ein und verweigert die Antwort.

Quelle: Anthropic

Konkurrenzmodelle weisen gleiche Lücken auf

Auslöser der US-Sperre war ein Bericht von Amazon-Forschern. Sie hatten Fable 5 mit speziellen Prompts dazu gebracht, Sicherheitslücken in Software zu finden und in einem Fall den passenden Exploit-Code auszugeben. Das Modell durchbrach damit seine eigenen Sicherheitseinstellungen.

Anthropic betont, dass dieser Jailbreak keine tiefgehenden Fähigkeiten für Cyberangriffe freilegte. Interne Tests ergaben, dass Konkurrenzmodelle wie GPT-5.5, Kimi K2.7 sowie ältere Claude-Versionen auf dieselben Prompts identisch reagierten. Für hochkomplexe, offensive Cybersicherheit bietet Anthropic weiterhin das spezialisierte Modell Claude Mythos 5 an. Dessen Exportbeschränkungen hob die US-Regierung für ausgewählte amerikanische Organisationen bereits am 26. Juni auf.

Anzeige

Neues Bewertungssystem für Jailbreaks

Der Vorfall zwingt die großen KI-Entwickler zur Zusammenarbeit. Bislang fehlt der Branche ein objektiver Maßstab, um die Schwere von Sicherheitslücken zu bewerten. Anthropic erarbeitet deshalb gemeinsam mit Amazon, Google und Microsoft ein vierstufiges Kategoriensystem.

Es bewertet künftige Jailbreaks nach klaren Metriken:

  • Wie stark erweitern sich die Fähigkeiten des Modells?
  • Wie breit lassen sich diese neuen Funktionen einsetzen?
  • Wie viel Aufwand ist nötig, um den Jailbreak für einen Angriff zu nutzen?
  • Wie leicht ist die Methode für Dritte zugänglich?

Behörden testen vor Veröffentlichung

Um künftige Exportstopps zu vermeiden, räumt Anthropic der US-Regierung tiefere Einblicke ein. Das US-Handelsministerium und dessen Prüfstelle CAISI erhalten vor großen Releases Zugriff auf neue Modelle und deren Schutzmechanismen. Finden externe Sicherheitsforscher einen kritischen Jailbreak, teilt Anthropic die Bedrohungsanalysen künftig direkt mit den Behörden, bevor die Schwachstelle öffentlich gemacht wird.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.