Ein niedlicher Roboter mit Schutzschild

OpenAI macht KI-Modelle immun gegen Hacker

Eine neue Trainingsmethode wehrt versteckte Befehle durch eine strenge Hierarchie ab. Interne Tests zeigen massive Verbesserungen.

Andreas Becker Nano Banana
Ein niedlicher Roboter mit Schutzschild

OpenAI präsentiert mit der sogenannten "IH-Challenge" eine neue Trainingsmethode, die Sprachmodelle effektiv vor Manipulationen schützt. Ein interner Testlauf mit dem modifizierten Modell GPT-5 Mini-R zeigt, wie eine strenge Befehlshierarchie bösartige Eingaben blockiert, ohne die Leistungsfähigkeit im Alltag zu beeinträchtigen.

Versteckte Befehle blockieren

Sprachmodelle sind bei der Anbindung an das Internet oft anfällig für sogenannte Prompt Injections. Angreifer verstecken dabei unsichtbare Befehle in fremden Texten oder auf Webseiten. Liest die KI diese Daten ein, überschreiben die bösartigen Befehle die eigentlichen Anweisungen der Programmierer.

Quelle: OpenAI

Ein typisches Szenario zeigt sich bei der Nutzung von Kalender-Schnittstellen. Sucht das Modell im Auftrag des Nutzers nach dem nächsten Termin, liefert ein manipulierter Kalendereintrag plötzlich den Text "Zugriff gewährt" zurück. Normale Modelle übernehmen diesen Fremdtext blind und geben ihn aus. Ein mit der neuen Methode trainiertes System erkennt den Betrugsversuch hingegen sofort. Es blockiert die fehlerhafte Anweisung und hält sich strikt an das reguläre Format für Termine.

Die neue Hierarchie der Anweisungen

Der hohe Schutz basiert auf dem neuen Trainingsdatensatz der IH-Challenge. Dieses Prinzip bringt der KI von Grund auf bei, welche Befehle absoluten Vorrang haben. Systemvorgaben der Entwickler stehen dabei immer an oberster Stelle.

Nutzer-Prompts oder Daten aus externen Quellen ordnet das Modell in der Priorität deutlich tiefer ein. Konflikte zwischen Entwickler-Regeln und Nutzer-Eingaben löst das interne Testmodell GPT-5 Mini-R nun in 95 Prozent der Fälle korrekt. Das entspricht einer starken Verbesserung von 12 Prozentpunkten im Vergleich zum unmodifizierten Basismodell.

Anzeige

Starke Abwehr gegen Identitätsdiebstahl

Die internen Sicherheitstests belegen klare Fortschritte bei der Abwehr von gezielten Angriffen. Besonders bei Versuchen, das Modell zur Annahme einer falschen Identität zu zwingen ("Impersonation"), steigt der Robustheits-Wert enorm an. Er springt von einem sehr anfälligen Wert von 0,23 auf sichere 0,90.

Auch bei manuellen Angriffen durch Sicherheitsexperten zeigt sich das Testmodell widerstandsfähig. Beim menschlichen Red-Teaming klettert der Wert von 0,73 auf 0,90. Automatisierte Attacken wehrt das System mit einem Score von 0,97 nahezu perfekt ab.

Quelle: OpenAI

Sicherheit auf höchstem Niveau

In fast allen kritischen Sicherheitskategorien erreicht das System nun die volle Punktzahl von 1,00. Dazu gehören heikle Bereiche wie Hassrede, illegale Inhalte, Gewalt und Biologie. Das reguläre Modell lag hier zuvor noch zwischen 0,91 und 0,98.

Ein bekanntes Problem stark gesicherter Modelle ist häufig eine gewisse Übervorsichtigkeit. Oft verweigern sie die Antwort auf völlig harmlose Fragen. Dieses sogenannte Overrefusal konnte OpenAI mit der neuen Trainingsmethode jedoch deutlich reduzieren. Bei der entsprechenden Metrik für fälschliche Verweigerungen steigt der Wert von 0,79 auf den Bestwert von 1,00.

Quelle: OpenAI

Stabile Logik mit leichten Kompromissen

Die allgemeine Intelligenz der KI leidet kaum unter den neuen, strengen Sicherheitsvorgaben. Im komplexen GPQA-Diamond-Test hält das Modell seinen hohen Wert von 0,83. Bei mathematischen Aufgaben im AIME 2024 Benchmark gibt es sogar eine minimale Steigerung von 0,93 auf 0,94.

Nutzer müssen lediglich bei der allgemeinen Beliebtheit der Antworten kleine Abstriche machen. Die direkte Gewinnrate im Chat-Vergleich sinkt leicht von 0,71 auf 0,66. Der allgemeine Preference Score fällt von 0,46 auf 0,40. Das Experiment zeigt insgesamt, dass eine hohe Sicherheit bei Sprachmodellen ohne spürbare Leistungseinbußen in der Logik realisierbar ist.

Quelle: OpenAI

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.