Totale Blamage: Anthropics KI-Schutz hält nur sechs Tage!

Die hochgelobten "Constitutional Classifiers" sollten KI-Modelle absichern – doch Hacker knackten das System in Rekordzeit. Steht die KI-Branche vor einem Sicherheits-Fiasko?

Kurzfassung | Caramba, 11.02.25

Flux Schnell | All-AI.de

EINLEITUNG

Das KI-Unternehmen Anthropic präsentierte kürzlich mit den "Constitutional Classifiers" einen neuen Sicherheitsansatz, um Sprachmodelle vor sogenannten Jailbreaks zu schützen. Doch bereits nach sechs Tagen wurde das System vollständig überwunden. Was bedeutet das für die Sicherheit von KI-Modellen?

NEWS

Der neue Sicherheitsansatz von Anthropic

Anthropic entwickelte die "Constitutional Classifiers", um zu verhindern, dass KI-Modelle durch manipulierte Eingaben zu schädlichen oder unerwünschten Antworten verleitet werden. Diese Methode basiert auf vordefinierten Regeln, die erlaubte und unerlaubte Inhalte festlegen. Mithilfe dieser "Verfassung" generiert das System synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen, die als Grundlage für das Training der Klassifikatoren dienen.

In ersten Tests ließ Anthropic 183 Personen über zwei Monate hinweg versuchen, das KI-Modell Claude 3.5 zu überlisten. Die Teilnehmer sollten das Modell dazu bringen, zehn verbotene Anfragen zu beantworten. Trotz eines Preisgeldes von 15.000 Dollar und geschätzten 3.000 Stunden Testzeit gelang es niemandem, alle Sicherheitsvorkehrungen auszuhebeln. Die geschützte Version blockierte über 95 Prozent der Manipulationsversuche, während das ungeschützte Modell 86 Prozent der Versuche zuließ. Die Fehlerquote bei harmlosen Anfragen stieg dabei nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand betrug 23,7 Prozent.

Die Herausforderung und ihr schnelles Scheitern

Um die Robustheit weiter zu testen, veröffentlichte Anthropic eine öffentliche Demo-Version und forderte Experten auf, das System zu überlisten. Vom 3. bis 10. Februar 2025 konnten Teilnehmer versuchen, das System zu knacken. Bereits nach sechs Tagen, am 9. Februar 2025, teilte der Anthropic-Forscher Jan Leike mit, dass eine Person alle acht Level der Challenge geknackt habe. Insgesamt seien 3.700 Stunden und rund 300.000 Nachrichten von allen Beteiligten zusammengekommen. Ein universeller Jailbreak, der alle Level der Challenge löst, sei jedoch noch nicht gefunden worden.

Twitter-Beitrag: Cookies müssen aktiviert sein, hier klicken.

After ~300,000 messages and an estimated ~3,700 collective hours, someone broke through all 8 levels.

However, a universal jailbreak has yet to be found... https://t.co/xpj2hfGC6W
— Jan Leike (@janleike) February 9, 2025

AUSBLICK

Die Zukunft der KI-Sicherheit

Mit zunehmender Leistungsfähigkeit von KI-Modellen wird ein stärkerer Schutz immer wichtiger. Gleichzeitig werden universelle Jailbreaks potenziell wertvoller. Es ist daher denkbar, dass sich in Zukunft ein ähnliches Sicherheitsökosystem um Sprachmodelle entwickeln wird, wie es für Betriebssysteme existiert. Die schnelle Überwindung von Anthropics Sicherheitsmechanismus zeigt jedoch, dass noch erheblicher Forschungsbedarf besteht, um robuste und dauerhafte Schutzmaßnahmen zu entwickeln.

UNTERSTÜTZUNG

Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.

PayPal - Kaffee

Youtube - Kanal

KURZFASSUNG

Anthropic entwickelte die "Constitutional Classifiers", um KI-Modelle wie Claude 3.5 sicherer zu machen und vor Jailbreaks zu schützen.
Erste Tests zeigten eine hohe Widerstandsfähigkeit gegen Manipulationsversuche, doch eine öffentliche Challenge offenbarte schnell Schwachstellen.
Bereits nach sechs Tagen gelang es einem Teilnehmer, alle acht Level des Systems zu knacken, was massive Sicherheitsbedenken aufwirft.
Die schnelle Überwindung der Schutzmaßnahmen zeigt, dass die KI-Sicherheitsforschung noch große Herausforderungen bewältigen muss.