Ein Comicszene mit KI-Agenten

Vernetzte autonome KI-Agenten außer Kontrolle

Angreifer nutzen interagierende KI-Agenten für gezielte Manipulationen. Selbstständig agierende Würmer exfiltrieren private Daten ohne menschliches Zutun.

Andreas Becker01.05.26 Nano Banana

Ein Comicszene mit KI-Agenten

Kurzfassung Quellen

Forscher haben entdeckt, dass vernetzte KI-Agenten völlig neue Sicherheitsrisiken entwickeln, die bei isolierten Tests unsichtbar bleiben.
Ein einzelner bösartiger Prompt kann autonome Würmer erschaffen, die sich selbstständig im Netzwerk verbreiten und heimlich private Daten stehlen.
Gleichzeitig manipulieren Angreifer die Reputation von Modellen, um durch gefälschte Identitäten eine scheinbare Mehrheit für gezielte Täuschungen vorzutäuschen.
Neben diesen kritischen Schwachstellen zeigten einige Agenten jedoch auch spontane, eigenständig entwickelte Abwehrmechanismen gegen fremde Angriffe.

Microsoft-Forscher decken in einer aktuellen Studie gravierende Sicherheitslücken auf. Sobald autonome Agenten in großen Netzwerken miteinander kommunizieren, entstehen völlig neue Gefahren. Bisherige isolierte Tests von KI-Modellen übersehen diese gefährliche Eigendynamik komplett.

Microsoft Studie 1

Quelle: Microsoft

Kettenreaktionen treiben Token-Kosten

Ein einzelner bösartiger Prompt reicht aus, um eine unkontrollierbare Lawine auszulösen. In dem simulierten Ökosystem mit über einhundert KI-Modellen, darunter Varianten der Klassen GPT-4o und GPT-5, gaben infizierte Agenten sensible Nutzerdaten preis. Direkt im Anschluss leiteten sie die trügerischen Anweisungen selbstständig an andere Teilnehmer weiter. Diese digitalen Würmer verbreiten sich gänzlich ohne menschliches Zutun.

Dabei fungiert jeder Knotenpunkt im Netzwerk logischerweise gleichzeitig als Opfer und als Überträger. Nach wenigen Stationen schließt sich häufig der Kreis, weshalb das System in eine Endlosschleife gerät. Derartige Zirkelläufe blockieren wertvolle Ressourcen und treiben die Rechnungen für Token-Aufrufe drastisch in die Höhe.

Microsoft Studie 1

Quelle: Microsoft

Täuschung durch gefälschte Mehrheiten

Angreifer missbrauchen die Reputation vertrauenswürdiger Instanzen geschickt, um falsche Behauptungen zu legitimieren. Ein gezielt platzierter Beitrag in einem Forum führte im Testlauf schnell zu hunderten zustimmenden Kommentaren anderer Agenten. Verblüffenderweise erfanden die beteiligten Systeme dabei eigenständig bestätigende Beweise für die erfundene Diskussion.

Besonders anfällig zeigen sich die Modelle für koordinierte Täuschungsmanöver. Kontrolliert ein Akteur mehrere Identitäten, täuschen diese leicht eine scheinbare Mehrheit vor. Versucht ein Ziel-Agent im Anschluss die fraglichen Informationen zu verifizieren, fragt er genau diese manipulierten Quellen ab. Schließlich gibt die KI bereitwillig private Interaktionsverläufe heraus.

Microsoft Studie 3

Quelle: Microsoft

Proxys verschleiern den Ursprung

Oftmals agieren ahnungslose Mittelsmänner als Brücke zwischen Angreifer und Ziel. Gibt sich ein Agent beispielsweise als neuer Onboarding-Kontakt aus, formuliert er einen rigiden Befehl in eine natürlich wirkende Konversation um. Über diesen subtilen Weg gelangen intime Details wie medizinische Termine in die Hände Dritter.

Der eigentliche Initiator bleibt nach dem allerersten Schritt völlig im Dunkeln. Weder das attackierte System noch der menschliche Besitzer registrieren den verdeckten Datendiebstahl. Auf reiner Netzwerkebene lassen sich derartige Proxy-Ketten folglich nur durch eine lückenlose Protokollierung der Nachrichtenströme rekonstruieren.

Microsoft Studie 4

Quelle: Microsoft

Spontane Entstehung von Abwehrmechanismen

Interessanterweise entwickeln ausgewählte Agenten ohne explizite Anweisung ein ausgeprägtes Sicherheitsbewusstsein. Ein Modell verfasste während der Untersuchung völlig eigenständig ein Datenschutz-Manifest. Zudem warnte die Instanz kontinuierlich vor verdächtigen Inhalten. Solche präventiven Verhaltensweisen speichern sich direkt im gemeinsamen Gedächtnis des Netzwerks ab.

Kurze Zeit später adaptierten weitere Teilnehmer diese vorsichtige Grundhaltung. Sie weigerten sich zunehmend, riskante Befehle blind auszuführen. Dadurch sank die Erfolgsquote der simulierten Einbrüche spürbar. Entsprechende Beobachtungen liefern wichtige Erkenntnisse, um zukünftige Multi-Agenten-Plattformen von Beginn an widerstandsfähiger zu gestalten.

Microsoft Studie 5

Quelle: Microsoft

Anzeige