Anthropic zeigt auf 36 Seiten wie man autonome KI-Agenten absichert

Klassische IT-Sicherheit scheitert bei modernen KI-Agenten völlig. Das neue »Zero-Trust-Konzept« setzt auf strikte Rechteverwaltung.

Andreas Becker27.05.26 GPT-Images-2.0

Kurzfassung Quellen

Anthropic hat ein neues Zero-Trust-Framework für den sicheren Einsatz von autonomen KI-Agenten veröffentlicht.
Klassische Sicherheitsmaßnahmen versagen, da KI-Modelle Schwachstellen mittlerweile innerhalb von Stunden statt Monaten ausnutzen.
Der neue Ansatz basiert auf kryptografischen Identitäten, stark limitierten Zugriffsrechten und isolierten Sandbox-Umgebungen für KI-Prozesse.
Zusätzlich fordert das Konzept stark automatisierte Abwehrsysteme, die in maschineller Geschwindigkeit und in Echtzeit auf Anomalien reagieren.

Anthropic hat ein neues Sicherheitskonzept vorgestellt, das Unternehmen beim Einsatz eigener autonomer KI-Agenten schützt. Die Zero-Trust-Architektur reagiert auf die stark verkürzte Zeitspanne zwischen dem Entdecken von Schwachstellen und deren Ausnutzung.

Warum klassische IT-Sicherheit bei KI versagt

Bisherige Abwehrmechanismen stoßen bei modernen KI-Modellen an ihre Grenzen. Autonome KI-Agenten führen komplexe Prozesse über mehrere Schritte hinweg völlig selbstständig aus. Sie rufen externe Daten ab, nutzen fremde Programmierschnittstellen und treffen eigene Entscheidungen.

Das führt zu völlig neuen Bedrohungsszenarien in Firmennetzwerken. Kriminelle schleusen beispielsweise bösartige Befehle über manipulierte Webseiten oder Dokumente ein. Ein eigener firmeninterner KI-Agent, der diese Daten liest, führt den Schadcode ohne menschliches Zutun direkt im Unternehmensumfeld dann aus.

Entsprechend gilt das Prinzip der klassischen Netzwerkgrenzen nicht mehr. Als Angreifer benutzt man einfach schon agierende KI-Agenten innerhalb des Unternehmens.

Zero Trust und das Prinzip der minimalen Rechte

Die direkte Antwort auf diese Bedrohungen ist ein strikter Zero-Trust-Ansatz. Das bedeutet im Kern, dass keine einzige Handlung der KI ohne vorherige Verifizierung ausgeführt wird. Anthropic setzt dabei vor allem auf das Konzept der »Least Agency«.

Ein KI-Modell erhält demnach nur exakt die Berechtigungen, die es für eine hochspezifische Aufgabe benötigt. Verfasst eine KI E-Mails, benötigt sie keinerlei Zugriff auf die Buchhaltungssoftware oder Datenbanken. Diese eingeschränkten Rechte gelten zudem oft nur temporär für wenige Minuten.

Jeder KI-Agent bekommt außerdem eine eigene, kryptografisch abgesicherte Identität zugewiesen. Dadurch lassen sich alle Aktionen exakt zurückverfolgen und analysieren. Geteilte Passwörter oder pauschale API-Schlüssel sind in einer solchen Architektur strengstens untersagt.

Isolierte Umgebungen gegen infizierte Daten

Um die KI vor bösartigen Inhalten zu schützen, laufen die Prozesse in stark isolierten Sandbox-Umgebungen ab. Das verhindert effektiv, dass kompromittierte externe Tools oder vergiftete Dokumente das restliche Netzwerk befallen.

Zusätzlich prüfen komplexe Filter die Ein- und Ausgaben der KI-Modelle in Echtzeit. Spezielle Klassifikatoren erkennen Manipulationsversuche frühzeitig und blockieren sie. Microsofts Spotlighting-Technik hilft der KI beispielsweise dabei, zwischen harmlosen Benutzerdaten und potenziell gefährlichen Steuerungsbefehlen zu unterscheiden.

Auch das Gedächtnis der KI-Agenten erfordert einen extremen Schutz. Ohne eine saubere Speichertrennung könnten Angreifer Informationen in den Langzeitspeicher schleusen, die zukünftige Aufgaben dauerhaft in eine falsche Richtung lenken.

Automatisierte Abwehr mit maschineller Geschwindigkeit

Angreifer nutzen KI, um gefundene Schwachstellen in wenigen Stunden statt in Monaten auszunutzen. Menschliche Sicherheitsteams sind für eine rechtzeitige Reaktion bei solch automatisierten Kampagnen oft viel zu langsam. Die Verteidigung muss deshalb ebenfalls in maschineller Geschwindigkeit erfolgen.

Sogenannte Agentic-SOAR-Lösungen überwachen das Verhalten der KI-Modelle anhand etablierter statistischer Baselines. Weicht ein KI-Agent von seinem normalen Verhaltensmuster ab, greift das Abwehrkonzept sofort hart ein. Die laufende Sitzung wird beendet oder die Berechtigungen werden entzogen, bevor ein spürbarer Schaden entsteht.

Menschliche Analysten übernehmen erst bei weitreichenden Entscheidungen die finale Kontrolle. Die Automatisierung sammelt lediglich Beweise und sperrt auffällige Prozesse vorläufig. Das hält den operativen Betrieb aufrecht und minimiert gleichzeitig das Gesamtrisiko für das Unternehmen.

Ein Leitfaden für unterschiedliche Reifegrade

Das vorgelegte Konzept teilt die Sicherheitsmaßnahmen in drei konkrete Stufen ein. Unternehmen können so schrittweise einsteigen und ihre Infrastruktur an das eigene Risikoprofil und die Skalierung anpassen.

Die Basisstufe legt den Grundstein mit kurzlebigen Authentifizierungs-Token und robuster, rollenbasierter Zugriffskontrolle. Das reicht für kleinere Implementierungen bereits aus, um die trivialen Angriffsvektoren auszuschließen.

Für hochregulierte Branchen wie den Finanzsektor greift hingegen die höchste Stufe. Dazu zählen hardwaregebundene Identitäten und eine kontinuierliche Echtzeit-Verifizierung aller Prozesse. Diese Maßnahmen gewährleisten die Betriebssicherheit auch bei hochentwickelten KI-Angriffen auf das Kernnetzwerk.

Wer sich näher mit der Thematik beschäftigen und konkrete Maßnahmen ergreifen möchte, dem empfehle ich den 36-seitigen englischen Leitfaden »Anthropic – Zero Trust for AI Agents«.