Ein harmloses Landschaftsbild wird mit einer Lupe untersucht

Google DeepMinds größte Studie zu »AI Agent Traps«

Über unsichtbare Textpassagen kapern Angreifer vernetzte Assistenten. Die Schutzmechanismen der Anbieter versagen dabei komplett.

Andreas Becker03.05.26 Nano Banana

Kurzfassung Quellen

Google DeepMind deckt in einer neuen Studie auf, dass Webseiten autonome KI-Agenten gezielt durch versteckte Befehle in HTML-Code und Bilddateien manipulieren.
Webserver identifizieren KI-Modelle anhand von Verhaltensmustern und liefern diesen modifizierte Inhalte aus, welche für menschliche Augen gänzlich unsichtbar bleiben.
Diese injizierten Befehle zwingen die Agenten zu fremdgesteuerten Aktionen, die sich in verknüpften Multi-Agenten-Systemen wie ein Lauffeuer ausbreiten.
Die Untersuchung an aktuellen Modellen zeigt abschließend, dass herkömmliche Sicherheitsvorkehrungen gegen diese Angriffsvektoren nahezu wirkungslos sind.

Google DeepMind hat die bisher größte empirische Studie zur Manipulation von KI-Modellen veröffentlicht. Webseiten identifizieren autonome Agenten mittlerweile fehlerfrei und spielen diesen zielgerichtet versteckte Befehle aus. Dadurch findet eine weitreichende Fremdsteuerung statt, die für Nutzer völlig unsichtbar bleibt.

Unsichtbare Fallen im Quelltext

Anhand von 502 Teilnehmern aus acht Ländern beleuchtet die umfassende Untersuchung insgesamt 23 verschiedene Angriffsarten. Analysiert wurden bei diesem Testabgleich unter anderem KI-Modelle von OpenAI, Anthropic und Google. Das zentrale Resultat belegt dabei keine bloße theoretische Schwachstelle, sondern eine bereits im großen Stil stattfindende Unterwanderung der Agenten.

Dafür verbergen Angreifer böswillige Anweisungen strategisch klug in HTML-Kommentaren oder nutzen spezielle Formatierungen, um Textpassagen für das menschliche Auge komplett auszublenden. Die eingesetzten KI-Modelle lesen diese unsichtbaren Abschnitte jedoch systematisch aus und befolgen die darin eingebetteten Befehle. Sogar scheinbar harmlose PDF-Dokumente zwingen die Assistenzsysteme durch integrierte Steuerungsbefehle zu unerwünschten Handlungen.

Multimodale Angriffe und visuelle Täuschung

Einen weiteren essenziellen Angriffsvektor stellt die Verarbeitung von visuellen Medien dar. Mittels Steganografie verankern Täter schädliche Kommandos tief in den einzelnen Pixelstrukturen von Bildern. Betrachtet ein Mensch das entsprechende Foto auf seinem Monitor, fallen keinerlei optische Veränderungen auf. Multimodale Modelle werten die Pixel jedoch analytisch aus und extrahieren die versteckten Instruktionen exakt.

Solche Injektionen hebeln etablierte Sicherheitsrichtlinien völlig unbemerkt aus. Erhält ein System einen derartigen versteckten Auftrag, überschreibt es seine ursprünglichen Ziele drastisch und leitet sensible Daten heimlich ab. Entsprechend läuft dieser gesamte Vorgang vollständig im Hintergrund ab.

Die Asymmetrie der Datenbeschaffung

Serverbetreiber erkennen externe KI-Modelle zunehmend durch die Auswertung spezifischer Verhaltensmuster, Zeitstempel und sogenannter User-Agent-Strings. Registriert die Infrastruktur einen automatisierten Besucher, liefert sie umgehend eine speziell manipulierte Version der Webseite aus. Menschliche Nutzer erhalten exakt im selben Moment den völlig regulären, sauberen Inhalt geliefert.

Beauftragt eine Person ihren Assistenten anschließend mit der Zusammenfassung einer solchen Internetpräsenz, differiert die Antwort folglich stark vom eigentlich sichtbaren Text. Das Modell verarbeitet strikt die verdeckt zugestellten Datenpakete. Es besitzt keine sensorische Möglichkeit zu erkennen, dass es getäuscht wurde und kann den Nutzer dementsprechend nicht über den Vorfall aufklären.

Kaskadeneffekte in vernetzten Systemen

Besonders kritisch wirken sich diese identifizierten Schwachstellen in Konstrukten aus mehreren zusammenarbeitenden Agenten aus. Extrahiert der erste Agent verseuchte Daten aus dem Netz, reicht er diese als vertrauenswürdige Arbeitsgrundlage direkt an das nächste System weiter. Folglich wandert der eingeschleuste Befehl ungeprüft durch die komplette Verarbeitungskette.

Jeder nachfolgende Agent besitzt keinerlei Anlass, den erhaltenen Informationen seiner Kollegen zu misstrauen. Das Angriffsmanöver erfordert somit keine direkte, aufwendige Kompromittierung des Basismodells. Vielmehr genügt es völlig, die konsumierten externen Datenpunkte präzise zu vergiften, um den Ablauf zu stören.

Grenzen der aktuellen Verteidigungslinien

Letztendlich stellt die Studie von Google DeepMind den derzeitigen Abwehrmaßnahmen ein verheerendes Zeugnis aus. Jegliche Filterung der Eingabedaten scheitert schlicht an der enormen Größe und Variabilität der modernen Angriffsfläche. Beispielsweise lassen sich manipulierte Bildpixel zum Zeitpunkt der Inferenz nicht verlässlich blockieren.

Zusätzlich greifen Sicherheitsanweisungen, die dem Agenten das Ignorieren verdächtiger Inhalte befehlen, hier zu kurz, da die injizierten Daten zumeist legitim wirken. Reine menschliche Kontrolle bietet bei der schieren Arbeitsgeschwindigkeit autonomer Prozesse ohnehin keinen praktikablen Ausweg mehr. Die Infrastruktur für derartige Angriffe existiert bereits, effektive Schutzmechanismen fehlen den Systemen hingegen noch immer.

Google DeepMinds größte Studie zu »AI Agent Traps«

Unsichtbare Fallen im Quelltext

Multimodale Angriffe und visuelle Täuschung

Die Asymmetrie der Datenbeschaffung

Kaskadeneffekte in vernetzten Systemen

Grenzen der aktuellen Verteidigungslinien

Anzeige

Claude Opus 4.7 schlägt den Vorgänger, aber nicht Mythos

Warum ChatGPT aktuell von Goblins überrannt wird

Claude-Desktop-App installiert »Spyware« auf MacOS

Qwen 3.6 Max ist das stärkste Modell von Alibaba

Neues offenes OpenAI Modell schützt lokale Daten

10 ChatGPT Prompts: Schonungslose Selbst-Analyse per KI-Karikatur

Die fünf besten KI Prompts 2025

3D Modelle mit KI für 3D Druck und Gaming - Meshy AI Tutorial 2025

ElevenLabs Test 2026: Voice, Agenten, Kosten und Tipps

Seedance 2.0 Test 2026: Verfügbarkeit, Benchmarks, Tipps

Higgsfield Test 2026: Viel Glanz, aber auch Schatten

Geheimes OpenAI-Modell löst fünf komplexe Erdős-Probleme

Gen Z hat am meisten Angst vor KI

LeWorldModel: KI-Modelle begreifen physikalische Gesetze

Google DeepMinds größte Studie zu »AI Agent Traps«

Unsichtbare Fallen im Quelltext

Multimodale Angriffe und visuelle Täuschung

Die Asymmetrie der Datenbeschaffung

Kaskadeneffekte in vernetzten Systemen

Grenzen der aktuellen Verteidigungslinien

Anzeige

KI-Wissen ohne Paywall