Anthropic Grafik

So will Anthropic den Diebstahl von Modelldaten und KI-Gefahren stoppen

Das Unternehmen präsentiert die dritte Version seiner Sicherheitsrichtlinien. Im Fokus stehen strengere Zugangskontrollen und der Schutz vor staatlichen Akteuren.

Andreas Becker Anthropic
Anthropic Grafik

Das KI-Unternehmen Anthropic hat seine Sicherheitsrichtlinien umfassend überarbeitet und die Version 3.0 der "Responsible Scaling Policy" (RSP) vorgestellt. Das neue Regelwerk führt detaillierte Risikoberichte und Fahrpläne ein, um die Gefahren hochentwickelter KI-Modelle besser zu bewerten und zu kontrollieren.

Neue Struktur für mehr Transparenz

Die Responsible Scaling Policy legt fest, wie das Unternehmen mit potenziellen Gefahren beim Training immer leistungsfähigerer KI-Modelle umgeht. Die nun veröffentlichte Version 3.0 ist eine vollständige Neufassung der ursprünglichen Richtlinie aus dem Jahr 2023.

Eine zentrale Neuerung ist die Einführung von sogenannten "Frontier Safety Roadmaps" sowie regelmäßigen Risikoberichten. Diese Berichte sollen die genauen Risiken aller eingesetzten Modelle quantifizieren. Dabei geht es unter anderem um die Gefahr, dass eine Künstliche Intelligenz bei der Entwicklung von biologischen, chemischen oder nuklearen Waffen helfen könnte. Solche Bedrohungen werden in der Branche unter dem Begriff der CBRN-Risiken zusammengefasst.

Zudem trennt das Unternehmen nun deutlich zwischen den eigenen internen Sicherheitsmaßnahmen und allgemeinen Empfehlungen für die restliche KI-Industrie. Andere Entwickler erhalten dadurch eine klarere Vorlage für den Aufbau eigener Sicherheitsstandards.

Anzeige

Dynamische Anpassung an neue Fähigkeiten

In der Vergangenheit stützte sich das Regelwerk stark auf starre Selbstverpflichtungen. Die neue Version setzt stattdessen auf eine dynamischere Anpassung. Wenn ein KI-Modell eine zuvor definierte Leistungsschwelle überschreitet, greifen automatisch strengere Sicherheitskonzepte.

Diese Konzepte sind in verschiedene Sicherheitsstufen, die sogenannten "AI Safety Levels" (ASL), unterteilt. Erreicht ein Modell beispielsweise die Stufe ASL-3, müssen striktere Zugangskontrollen und ein besserer Schutz vor dem Diebstahl der Modelldaten durch staatliche Akteure gewährleistet sein.

Die Entwickler prüfen fortlaufend durch gezielte Tests, ob die Modelle neue Schwellenwerte erreichen.

Das übergeordnete Ziel ist es, die Schutzmaßnahmen immer proportional an die tatsächliche Leistung der KI anzupassen. Mit dieser Aktualisierung reagiert das Unternehmen auf die schnelle technische Entwicklung der vergangenen Monate. Die Sicherheitsarchitektur wächst dadurch strukturiert mit den komplexeren Fähigkeiten moderner KI-Systeme mit.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.