Claude Skill Creator: Testen, messen und verbessern

Anthropic integriert Evals und Benchmarks in Claude. So lässt sich die Leistung von Agent Skills vor dem Einsatz exakt überprüfen.

Andreas Becker03.03.26 Nano Banana

Kurzfassung Quellen

Anthropic hat ein großes Update für den skill-creator seiner KI Claude veröffentlicht.
Entwickler können Agent Skills nun durch automatisierte A/B-Tests mit einer Basislinie vergleichen und evaluieren.
Ein neuer Benchmark-Modus liefert dabei präzise Metriken zu Erfolgsquoten, Ausführungszeiten und dem Token-Verbrauch.
Zudem optimiert das System die Trigger-Beschreibungen, damit Claude die Skills im richtigen Kontext zuverlässiger abruft.

Anthropic hat den skill-creator für seine KI Claude erweitert. Nutzer können Agent Skills nun nicht mehr nur erstellen, sondern durch automatisierte A/B-Tests, Benchmarks und Trigger-Optimierung direkt messen und zielgerichtet für den produktiven Einsatz verbessern.

Messbare Qualität für Agent Skills

Agent Skills erweitern die Funktionen von Claude um spezifische Aufgaben und Abläufe. In der Vergangenheit war es für Entwickler oft schwer einzuschätzen, wie zuverlässig ein neuer Skill wirklich funktioniert. Das aktuelle Update für den skill-creator ändert das grundlegend. Anthropic integriert nun eine automatisierte Testumgebung direkt in den Erstellungsprozess.

Nutzer definieren dafür zunächst eigene Test-Prompts für ihren Anwendungsfall. Das System führt diese Aufgaben anschließend parallel aus: einmal mit dem aktivierten Skill und einmal als Basislinie ohne zusätzliche Instruktionen. Ein unabhängiges Bewertungsmodul analysiert die Ergebnisse blind und vergleicht sie nach vorher festgelegten Kriterien. Dieser A/B-Test macht die tatsächliche Leistungssteigerung durch den Skill sofort sichtbar.

Quelle: Anthropic

Die von Anthropic veröffentlichten Daten zeigen durch diese Optimierungen deutliche Fortschritte bei der Verarbeitung verschiedener Dateiformate. In internen Tests stieg die Genauigkeit bei PDF-Dokumenten von 6/8 auf 7/8 Punkten. Bei Excel-Tabellen verbesserte sich der Wert von 6/8 auf die volle Punktzahl. Auch das komplexe Abrufen von internem Produktwissen konnte durch passgenaue Skill-Beschreibungen merklich gesteigert werden.

Quelle: Anthropic

Konkrete Benchmarks und optimierte Auslöser

Ein neuer Benchmark-Modus liefert Entwicklern zudem detaillierte Metriken für die Fehleranalyse. Eine Übersichtstabelle zeigt Kennzahlen wie die Erfolgsquote, die benötigte Zeit und den Token-Verbrauch im direkten Vergleich. Anthropic demonstriert dies anhand eines speziellen PDF-Skills. Bei anspruchsvollen Aufgaben wie dem Ausfüllen nicht-ausfüllbarer Formulare oder dem Extrahieren von Tabellen aus mehrseitigen Dokumenten stieg die Erfolgsquote durch den Skill von 40 auf 100 Prozent. Die Ausführungszeit blieb dabei nahezu konstant.

Quelle: Anthropic

Neben der reinen Ausgabequalität verbessert das Update auch die eigentliche Aktivierung der Skills. Claude entscheidet ausschließlich auf Basis kurzer Textbeschreibungen im System-Prompt, wann eine bestimmte Fähigkeit benötigt wird. Der skill-creator analysiert und optimiert genau diese Beschreibungen. Dadurch versteht das Sprachmodell besser, in welchem Kontext ein Skill aufgerufen werden muss.

Das System zielt auf eine kontinuierliche Qualitätskontrolle ab. Entwickler testen einen Skill, werten die Fehler aus, passen die Anweisungen an und starten den nächsten Testlauf. Dieser datengetriebene Ansatz macht die Entwicklung von Agent Skills berechenbarer und bereitet sie auf den produktiven Einsatz vor.