Ein Taschendieb bestiehlt Anthropic Claude Cowork

Claude Cowork: Warum dein neuer KI-Kollege dich ausspioniert

Wie eine simple Datei reicht, damit der Desktop-Agent deine sensiblen Daten an Hacker sendet.

Andreas Becker15.01.26 Nano Banana

Kurzfassung Quellen

Eine kritische Sicherheitslücke in Anthropics Desktop-Agent "Claude Cowork" ermöglicht Hackern den Zugriff auf das lokale Dateisystem.
Durch "Indirect Prompt Injection" in manipulierten Dateien (z.B. PDFs) führt die KI unbemerkt Befehle aus und sendet Daten an Dritte.
Da das Sprachmodell legitime Nutzerbefehle nicht von bösartigen Inhalten in Dateien unterscheiden kann, ist eine technische Lösung schwierig.
Experten raten dringend dazu, den Zugriff des Agenten auf sensible Ordner zu beschränken oder ihn nur in isolierten Umgebungen zu nutzen.

Anthropics neuer Desktop-Agent Claude Cowork weist eine kritische Schwachstelle auf, die Hackern den unbemerkten Zugriff auf lokale Dateisysteme ermöglicht. Für Nutzer bedeutet dies ein akutes Risiko, da vertrauliche Dokumente ohne direkte Interaktion autonom exfiltriert werden können.

Der Traum vom autonomen Dateimanager

Mit der Einführung von Claude Cowork versprach Anthropic eine Revolution der digitalen Büroarbeit. Der Desktop-Agent sollte als tief integrierter Assistent fungieren, der selbstständig Ordnerstrukturen bereinigt, Dokumente sortiert und Inhalte analysiert – ganz ohne Programmierkenntnisse des Anwenders. Die Vision war ein KI-Kollege, der Zugriff auf das lokale Dateisystem erhält, um administrative Lasten zu übernehmen. Doch genau diese weitreichenden Befugnisse werden dem System nun zum Verhängnis. Sicherheitsforscher haben nur wenige Tage nach dem Start eine gravierende Lücke in der Architektur des Agenten entdeckt.

Das Problem liegt nicht in der Intelligenz des Modells, sondern in dessen Vertrauensseligkeit gegenüber verarbeiteten Daten. Claude Cowork behandelt Inhalte aus Nutzerdateien oft wie direkte Handlungsanweisungen. Dies öffnet Tür und Tor für sogenannte "Indirect Prompt Injections". Dabei platzieren Angreifer versteckte Befehle in scheinbar harmlosen Dokumenten, die der Agent bei seiner täglichen Arbeit scannt und anschließend ausführt.

Einfallstor Dateisystem

Die Angriffsmethode ist so simpel wie effektiv. Ein Hacker muss lediglich eine präparierte Datei – etwa ein PDF mit unsichtbarem Text oder eine Notiz im Projektordner – auf dem Rechner des Opfers platzieren. Sobald Claude Cowork diesen Ordner indexiert oder bearbeitet, liest die KI die darin enthaltenen Instruktionen. Der Nutzer bekommt davon nichts mit, da der Prozess im Hintergrund abläuft.

Sicherheitsexperte Simon Willison demonstrierte, wie der Agent durch solche manipulierten Dateien dazu gebracht werden kann, sensible Informationen aus anderen Dokumenten zusammenzutragen. Die KI unterscheidet dabei nicht zwischen dem legitimen Befehl des Eigentümers und dem bösartigen Befehl innerhalb der Datei. Für das Sprachmodell sind beides valide Inputs, die priorisiert abgearbeitet werden. Besonders in Unternehmen, in denen Dateien oft geteilt und heruntergeladen werden, potenziert sich dieses Risiko enorm.

Unsichtbarer Datenabfluss

Das Schreckensszenario endet nicht beim bloßen Auslesen der Daten. Die eigentliche Gefahr besteht in der "Data Exfiltration", also dem unbemerkten Abfluss von Informationen an Dritte. Die manipulierten Anweisungen können Claude Cowork dazu zwingen, die gesammelten Daten an einen externen Server zu senden. Da der Agent über eine aktive Internetverbindung verfügt und für die Kommunikation mit den Anthropic-Servern ausgelegt ist, wird dieser Datentransfer von herkömmlichen Firewalls oft nicht blockiert.

Die Sicherheitsmechanismen, die Anthropic implementiert hat, greifen in diesem Szenario zu kurz. Zwar gibt es Filter gegen offensichtliche Angriffe, doch die Komplexität der natürlichen Sprache ermöglicht es Angreifern, diese Barrieren kreativ zu umgehen. Das System führt die Exfiltration aus, im Glauben, eine legitime Aufgabe zu erfüllen, etwa das "Zusammenfassen und Sichern" von Projektstatusberichten an eine externe URL.

Reaktion und Risikoeinschätzung

Anthropic reagierte bereits mit einer Aktualisierung der Support-Dokumente zur sicheren Nutzung, doch eine technische Schließung der Lücke gestaltet sich schwierig. Es handelt sich um ein systemimmanentes Problem moderner LLM-Agenten (Large Language Models), die Zugriff auf externe Werkzeuge und das Internet haben. Solange das Modell nicht zweifelsfrei zwischen Systembefehl und Dateninhalt unterscheiden kann, bleibt das Restrisiko bestehen.

Unternehmen und Privatanwendern wird aktuell geraten, Claude Cowork nur in isolierten Umgebungen zu nutzen oder den Zugriff auf sensible Verzeichnisse strikt zu limitieren. Der Vorfall zeigt deutlich, dass die Autonomie von KI-Agenten auf dem Desktop einen Preis hat: Wer einem Assistenten den Generalschlüssel zu seinen Daten gibt, muss sicherstellen, dass dieser nicht versehentlich dem Einbrecher die Tür öffnet.