Microsofts »MDASH-Modell« schlägt Claude Mythos

Das Multi-Modell-System deklassiert die Konkurrenz im CyberGym-Benchmark. Über 100 Agenten diskutieren Code-Fehler völlig autonom.

Andreas Becker15.05.26 GPT-Images-2.0

Kurzfassung Quellen

Microsoft stellt mit MDASH ein neues Sicherheitssystem vor, das auf über 100 kooperierende KI-Agenten setzt.
Die Software fand selbstständig 16 Schwachstellen in Windows, von denen vier als kritisch eingestuft wurden.
Im CyberGym-Benchmark belegt das System mit 88,4 Prozent Erfolgsquote den ersten Platz vor Anthropic und OpenAI.
Das Tool befindet sich bereits im produktiven Einsatz und filtert Fehlalarme durch interne Debatten der Agenten heraus.

Ein neues Microsoft-System aus über 100 spezialisierten KI-Agenten hat auf einen Schlag 16 bisher unbekannte Schwachstellen im Windows-Code aufgedeckt. Das System sucht, diskutiert und verifiziert Fehler völlig eigenständig und verweist die versammelte Konkurrenz auf die hinteren Plätze.

Das Ende der Einzelkämpfer

Bisherige Ansätze zur Fehlersuche scheiterten oft an der Komplexität moderner Software. Ein einzelnes KI-Modell übersieht leicht Zusammenhänge, die sich über mehrere Dateien erstrecken. Genau hier setzt die neue Architektur an. Sie orchestriert ein ganzes Ensemble verschiedener Sprachmodelle für eine gemeinsame Aufgabe.

Jeder Agent in diesem Netzwerk übernimmt eine spezifische Rolle. Prüfer-Agenten durchforsten den Quellcode nach Auffälligkeiten und stellen erste Hypothesen auf. Anschließend treten Debattierer-Agenten auf den Plan, die diese Funde kritisch hinterfragen und versuchen, sie zu widerlegen.

Dieser interne Diskurs filtert Fehlalarme äußerst effektiv heraus. Bleibt ein Verdacht bestehen, konstruiert ein weiterer Agententyp einen konkreten Beweis für die Ausnutzbarkeit. Das System meldet den Fehler erst, wenn dieser Nachweis gelingt.

Spitzenreiter im Härtetest

Die Leistungsfähigkeit dieses Ansatzes zeigt sich auf dem öffentlichen CyberGym-Leaderboard. Bei der Analyse von über 1500 realen Schwachstellen erreicht das System eine Erfolgsquote von 88,4 Prozent. Damit deklassiert die Architektur das Modell Claude Mythos Preview von Anthropic, welches auf 83,1 Prozent kommt.

Quelle: Microsoft

Auch bei geschlossenen Code-Basen beweist das System seinen Wert eindrucksvoll. Bei einem Testlauf mit präpariertem Treiber-Code fand das Ensemble alle 21 versteckten Fehler ohne eine einzige Falschmeldung. Bei historischen Sicherheitslücken in zentralen Windows-Komponenten liegt die Erkennungsrate bei bis zu 100 Prozent.

Die 16 aktuell entdeckten Schwachstellen umfassen unter anderem kritische Fehler im TCP/IP-Stack und dem IKEv2-Dienst. Angreifer hätten einige dieser Lücken direkt über das Netzwerk ausnutzen können, ohne sich vorher zu authentifizieren. Die Entwickler haben entsprechende Patches bereits in das jüngste Update integriert.

Quelle: Microsoft

Einsatz in der Praxis

Die KI-gestützte Suche nach Schwachstellen verlässt damit das reine Forschungsstadium. Das System skaliert auf Enterprise-Niveau und lässt sich über Plugins flexibel an spezifische Umgebungen anpassen. Der Austausch von zugrunde liegenden Sprachmodellen erfordert zudem keine Neuentwicklung der gesamten Logik.

Aktuell nutzen interne Sicherheitsteams die Architektur für die tägliche Arbeit an Betriebssystemen und Cloud-Infrastrukturen. Ein ausgewählter Kundenkreis testet die Software parallel in einer geschlossenen Vorschauversion.