KI-Sprachmodelle ausgetrickst
Vergangenheitsform entlarvt Sicherheitslücke
Adobe Firefly | All-AI.de
Worum geht es?
Große Sprachmodelle (LLMs) wie ChatGPT oder GPT-4 sind darauf trainiert, potenziell gefährliche Anfragen abzulehnen. Doch eine neue Studie von Maksym Andriushchenko und Nicolas Flammarion von der École polytechnique fédérale de Lausanne (EPFL) zeigt, dass diese Schutzmechanismen oft leicht zu umgehen sind.
News
Wie die Sicherheitslücke funktioniert
Die Forscher fanden heraus, dass die Umformulierung einer schädlichen Anfrage in die Vergangenheitsform oft ausreicht, um das Sprachmodell dazu zu bringen, eine detaillierte Antwort zu geben. So lehnt ChatGPT beispielsweise die Frage ab, wie man einen Molotow-Cocktail herstellt. Fragt man jedoch, wie Menschen das früher gemacht haben, erhält man eine Schritt-für-Schritt-Anleitung.
Umfang der Sicherheitslücke
Die Forscher testeten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen, darunter Llama-3 8B, GPT-3.5 Turbo und GPT-4o. Die Ergebnisse waren alarmierend: Während bei GPT-4o nur 1 Prozent der direkten schädlichen Anfragen erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei kritischen Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.
Warum die Vergangenheitsform funktioniert
Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv waren. Das deutet darauf hin, dass die Schutzmaßnahmen dazu tendieren, Fragen zur Vergangenheit als harmloser einzustufen als hypothetische Fragen zur Zukunft.
Auswirkungen auf die Sicherheit von KI-Systemen
Die Ergebnisse der Studie werfen ernsthafte Fragen zur Sicherheit von KI-Systemen auf. Die Tatsache, dass eine so offensichtliche und leicht ausnutzbare Schwachstelle bisher unentdeckt blieb, ist besorgniserregend. Die neu entdeckte Sicherheitslücke könnte bestehende Sicherheitsstrukturen gefährden und den Missbrauch von KI-Sprachmodellen erleichtern.
Ausblick
Die Forscher haben auch einen möglichen Lösungsansatz aufgezeigt: Ein GPT-3.5, das mit in der Vergangenheitsform formulierten kritischen Anfragen und entsprechenden Ablehnungen feinjustiert wurde, konnte die kritischen Anfragen zuverlässig erkennen und ablehnen. Es bleibt abzuwarten, ob und wie schnell die Entwickler von KI-Sprachmodellen diese und andere Lösungen implementieren werden.
Meine Meinung
Es wird immer deutlicher, dass KI-Systeme anfällig für verschiedene Arten von Angriffen sind, die nicht immer leicht zu erkennen sind.
Short
- Forscher haben eine Sicherheitslücke in KI-Sprachmodellen wie ChatGPT entdeckt.
- Durch Umformulierung schädlicher Anfragen in die Vergangenheitsform können die Schutzmechanismen der Modelle umgangen werden.
- Die Schwachstelle ermöglicht es, Antworten auf Fragen zu erhalten, die normalerweise abgelehnt werden.
- Die Studie zeigt, dass aktuelle Sicherheitsmaßnahmen unzureichend sind.
- Die Forscher schlagen eine Lösung vor, um die Sicherheitslücke zu schließen.