OpenAI macht KI-Modelle immun gegen Hacker

Eine neue Trainingsmethode wehrt versteckte Befehle durch eine strenge Hierarchie ab. Interne Tests zeigen massive Verbesserungen.

Andreas Becker10.03.26 Nano Banana

Kurzfassung Quellen

OpenAI hat mit der IH-Challenge eine neue Trainingsmethode vorgestellt, die Sprachmodelle speziell gegen Prompt Injections und externe Manipulationen absichert.
Durch eine strenge Befehlshierarchie lernt die KI, Systemanweisungen zu priorisieren, und löst Konflikte mit Nutzer-Prompts in 95 Prozent der Fälle richtig.
Ein interner Test mit dem Modell GPT-5 Mini-R zeigt, dass die Abwehr gegen Jailbreaks drastisch steigt, während die logischen und mathematischen Fähigkeiten stabil bleiben.
Gleichzeitig verweigert das trainierte System harmlose Anfragen deutlich seltener, verliert jedoch im direkten Chat-Vergleich minimal an Beliebtheit.

OpenAI präsentiert mit der sogenannten "IH-Challenge" eine neue Trainingsmethode, die Sprachmodelle effektiv vor Manipulationen schützt. Ein interner Testlauf mit dem modifizierten Modell GPT-5 Mini-R zeigt, wie eine strenge Befehlshierarchie bösartige Eingaben blockiert, ohne die Leistungsfähigkeit im Alltag zu beeinträchtigen.

Versteckte Befehle blockieren

Sprachmodelle sind bei der Anbindung an das Internet oft anfällig für sogenannte Prompt Injections. Angreifer verstecken dabei unsichtbare Befehle in fremden Texten oder auf Webseiten. Liest die KI diese Daten ein, überschreiben die bösartigen Befehle die eigentlichen Anweisungen der Programmierer.

Quelle: OpenAI

Ein typisches Szenario zeigt sich bei der Nutzung von Kalender-Schnittstellen. Sucht das Modell im Auftrag des Nutzers nach dem nächsten Termin, liefert ein manipulierter Kalendereintrag plötzlich den Text "Zugriff gewährt" zurück. Normale Modelle übernehmen diesen Fremdtext blind und geben ihn aus. Ein mit der neuen Methode trainiertes System erkennt den Betrugsversuch hingegen sofort. Es blockiert die fehlerhafte Anweisung und hält sich strikt an das reguläre Format für Termine.

Die neue Hierarchie der Anweisungen

Der hohe Schutz basiert auf dem neuen Trainingsdatensatz der IH-Challenge. Dieses Prinzip bringt der KI von Grund auf bei, welche Befehle absoluten Vorrang haben. Systemvorgaben der Entwickler stehen dabei immer an oberster Stelle.

Nutzer-Prompts oder Daten aus externen Quellen ordnet das Modell in der Priorität deutlich tiefer ein. Konflikte zwischen Entwickler-Regeln und Nutzer-Eingaben löst das interne Testmodell GPT-5 Mini-R nun in 95 Prozent der Fälle korrekt. Das entspricht einer starken Verbesserung von 12 Prozentpunkten im Vergleich zum unmodifizierten Basismodell.

Starke Abwehr gegen Identitätsdiebstahl

Die internen Sicherheitstests belegen klare Fortschritte bei der Abwehr von gezielten Angriffen. Besonders bei Versuchen, das Modell zur Annahme einer falschen Identität zu zwingen ("Impersonation"), steigt der Robustheits-Wert enorm an. Er springt von einem sehr anfälligen Wert von 0,23 auf sichere 0,90.

Auch bei manuellen Angriffen durch Sicherheitsexperten zeigt sich das Testmodell widerstandsfähig. Beim menschlichen Red-Teaming klettert der Wert von 0,73 auf 0,90. Automatisierte Attacken wehrt das System mit einem Score von 0,97 nahezu perfekt ab.

Quelle: OpenAI

Sicherheit auf höchstem Niveau

In fast allen kritischen Sicherheitskategorien erreicht das System nun die volle Punktzahl von 1,00. Dazu gehören heikle Bereiche wie Hassrede, illegale Inhalte, Gewalt und Biologie. Das reguläre Modell lag hier zuvor noch zwischen 0,91 und 0,98.

Ein bekanntes Problem stark gesicherter Modelle ist häufig eine gewisse Übervorsichtigkeit. Oft verweigern sie die Antwort auf völlig harmlose Fragen. Dieses sogenannte Overrefusal konnte OpenAI mit der neuen Trainingsmethode jedoch deutlich reduzieren. Bei der entsprechenden Metrik für fälschliche Verweigerungen steigt der Wert von 0,79 auf den Bestwert von 1,00.

Quelle: OpenAI

Stabile Logik mit leichten Kompromissen

Die allgemeine Intelligenz der KI leidet kaum unter den neuen, strengen Sicherheitsvorgaben. Im komplexen GPQA-Diamond-Test hält das Modell seinen hohen Wert von 0,83. Bei mathematischen Aufgaben im AIME 2024 Benchmark gibt es sogar eine minimale Steigerung von 0,93 auf 0,94.

Nutzer müssen lediglich bei der allgemeinen Beliebtheit der Antworten kleine Abstriche machen. Die direkte Gewinnrate im Chat-Vergleich sinkt leicht von 0,71 auf 0,66. Der allgemeine Preference Score fällt von 0,46 auf 0,40. Das Experiment zeigt insgesamt, dass eine hohe Sicherheit bei Sprachmodellen ohne spürbare Leistungseinbußen in der Logik realisierbar ist.

OpenAI macht KI-Modelle immun gegen Hacker

Versteckte Befehle blockieren

Quelle: OpenAI

Die neue Hierarchie der Anweisungen

Anzeige

Starke Abwehr gegen Identitätsdiebstahl

Quelle: OpenAI

Sicherheit auf höchstem Niveau

Quelle: OpenAI

Stabile Logik mit leichten Kompromissen

Quelle: OpenAI

Claude Opus 4.7 schlägt den Vorgänger, aber nicht Mythos

Der Moment als Maschinen die menschliche Ausdauer übertrafen

Microsoft veröffentlicht 3 starke neue KI-Modelle

Warum Anthropic sein stärkstes KI-Modell nicht veröffentlicht

Google bringt autonome KI-Agenten für komplexe Recherchen

ElevenLabs Version 3 - Mega Update Tutorial!

Eigene Stimme in Veo 3 einsetzen: Der Profi-Guide

GPT-5 bändigen: Drei Worte, die alles ändern!

Face Swap mit einem Klick

Alte Fotos wie neu mit Topaz Mosaic

ElevenLabs Test 2026: Voice, Agenten, Kosten und Tipps

Frauen überholen Männer bei KI

OpenAIs Plan: 32 Stunde Woche und »Recht auf KI«

Chinas erste »vollautomatisierte« Fabrik baut 10.000 humanoide Roboter

OpenAI macht KI-Modelle immun gegen Hacker

Versteckte Befehle blockieren

Quelle: OpenAI

Die neue Hierarchie der Anweisungen

Anzeige

Starke Abwehr gegen Identitätsdiebstahl

Quelle: OpenAI

Sicherheit auf höchstem Niveau

Quelle: OpenAI

Stabile Logik mit leichten Kompromissen

Quelle: OpenAI

KI-Wissen ohne Paywall