Claude Opus 4.8 Bild

Claude Opus 4.8 überrascht mit Neuerungen

Anthropic zeigt ein neues KI-Modell mit steuerbarer Rechenintensität und hunderten parallelen Agenten für riesige Code-Aufgaben.

Andreas Becker GPT-Images-2.0
Claude Opus 4.8 Bild

Anthropic hat das KI-Modell Claude Opus 4.8 veröffentlicht. Die neue Version bietet eine verbesserte Leistungsfähigkeit bei agentenbasierten Aufgaben sowie der Programmierung. Der Preis für die Nutzung bleibt im Vergleich zum Vorgänger stabil.

Leistungssprung in Benchmarks

Das neue Modell setzt sich in mehreren Disziplinen an die Spitze der aktuellen KI-Entwicklung. Beim sogenannten »SWE-Bench Pro«, einem Test für autonome Programmierung, erreicht Opus 4.8 einen Wert von 69,2 Prozent. Damit übertrifft es direkte Konkurrenten wie GPT-5.5, das hier 58,6 Prozent erzielt, sowie Gemini 3.1 Pro mit 54,2 Prozent deutlich. Auch im Bereich der agentenbasierten Computernutzung, gemessen im »OSWorld-Verified«-Test, belegt die neue Version mit 83,4 Prozent den ersten Platz.

Bei komplexen Wissensaufgaben zeigt Anthropic ebenfalls Fortschritte, auch wenn GPT-5.5 bei der agentenbasierten Terminal-Programmierung mit 78,2 Prozent weiterhin knapp vor Opus 4.8 liegt. Im Test für interdisziplinäres Denken erzielt das neue Modell mit der Nutzung externer Hilfsmittel sehr gute 57,9 Prozent.

Quelle: Anthropic

Skalierung durch dynamische Workflows

Eine der zentralen technischen Neuerungen ist die Einführung dynamischer Workflows für die Umgebung »Claude Code«. Diese Funktion erlaubt es dem Modell, enorm umfangreiche Aufgaben in viele kleine Einzelschritte zu zerlegen. Claude Opus 4.8 kann dabei hunderte parallele Unteragenten in einer einzigen Sitzung orchestrieren und diese über längere Zeiträume laufen lassen.

Dadurch lassen sich tiefgreifende Änderungen an großen Code-Datenbanken vornehmen. Anthropic nennt als Anwendungsfall die vollständige Migration von hunderttausenden Zeilen Code. Das System arbeitet von der Planung bis zur finalen Integration völlig selbstständig. Am Ende überprüft die KI ihre eigenen Ergebnisse anhand bestehender Test-Suiten.

Steuerung der Rechenintensität und API-Updates

Nutzer erhalten auf der Plattform nun eine direkte Kontrolle über den Aufwand, den die KI in eine Aufgabe investieren darf. Über einen Regler lässt sich die Rechenintensität für jede Anfrage anpassen, wobei höhere Stufen bessere Ergebnisse auf Kosten eines höheren Token-Verbrauchs liefern.

Anthropic empfiehlt diese intensiven Stufen besonders für schwierige Programmieraufgaben oder lange, asynchron laufende Prozesse. Für einfachere Anfragen können Anwender eine niedrigere Stufe wählen, um Antworten schneller zu erhalten. Entwickler profitieren zudem von Neuerungen in der API, da Anweisungen nun während eines laufenden Prozesses aktualisiert werden können, ohne den Zwischenspeicher zu löschen.

Anzeige

Sicherheit, Zuverlässigkeit und Ausblick

Die Entwickler haben laut der dazugehörigen System Card großen Wert auf die Zuverlässigkeit gelegt. Frühere Versionen neigten bei komplexen Projekten mitunter dazu, Arbeitsfortschritte zu behaupten, ohne belastbare Code-Ergebnisse zu liefern. Opus 4.8 ist in dieser Hinsicht sehr viel präziser. Es übersieht bei der Überprüfung von Programmcode viermal weniger Schwachstellen als noch Opus 4.7.

Das allgemeine Fehlverhalten der KI wurde den veröffentlichten Grafiken zufolge ebenfalls deutlich reduziert und nähert sich dem Niveau von Claude Mythos Preview an. Anthropic plant bereits, derartige Modelle bald für die Allgemeinheit freizugeben.

Quelle: Anthropic

Bislang erproben nur ausgewählte Organisationen im Rahmen von »Project Glasswing« diese Systeme für die Cybersicherheit.

Die Preisstruktur für reguläre Anfragen mit Opus 4.8 bleibt derweil unverändert bei 5 US-Dollar pro einer Million Eingabe-Token und bei 25 US-Dollar pro einer Million Ausgabe-Token. Für den doppelten Preis gibt es eine Priorisierung bei den Anfragen.

Mit diesen Anpassungen erweitert der Anbieter die Einsatzmöglichkeiten seiner KI im professionellen Entwicklerumfeld wieder ein wenig mehr.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.