Ein Kunstwerk von einem Kopf aus Neuronen

Claude Sonnet 4.6 schlägt die starke Konkurrenz im Büro

Mit drastisch verbesserten Werten bei der Computersteuerung deklassiert Sonnet 4.6 namhafte Mitbewerber bei alltäglichen Office-Aufgaben.

Andreas Becker Nano Banana
Ein Kunstwerk von einem Kopf aus Neuronen

Anthropic hat das KI-Modell Claude Sonnet 4.6 veröffentlicht und integriert in einer Beta-Phase ein erweitertes Kontextfenster von einer Million Token. Das Update liefert messbare Leistungssteigerungen bei der autonomen Computersteuerung sowie der Code-Generierung. Der Preis bleibt dabei mit $3/$15 pro Million Token stabil.

Autonome Computersteuerung im Detail

Die Entwickler legen bei der neuen Version einen klaren Schwerpunkt auf sogenannte agentische Fähigkeiten. Das Modell kann Desktop-Oberflächen steuern, Klicks ausführen und Programme bedienen. Laut den veröffentlichten Benchmarks erreicht Sonnet 4.6 im OSWorld-Verified-Test einen Wert von 72,5 Prozent.

Quelle: Anthropic

Zum Vergleich lag der Vorgänger Sonnet 4.5 im Oktober 2025 noch bei 61,4 Prozent. Diese kontinuierliche Steigerung verdeutlicht, dass die KI zunehmend fehlerfrei mit grafischen Benutzeroberflächen interagiert.

Ein Blick auf die direkte Konkurrenz zeigt ein enges Feld. Bei typischen Büroaufgaben, gemessen im GDPval-AA Elo, übertrifft Sonnet 4.6 mit einem Wert von 1633 sowohl Gemini 3 Pro als auch GPT-5.2. Lediglich bei der agentischen Terminal-Programmierung bleibt das neue Modell mit 59,1 Prozent hinter den Spitzenwerten der Mitbewerber zurück.

Quelle: Anthropic

Programmierung und Informationsbeschaffung

Auch bei der reinen Softwareentwicklung verzeichnet das Modell Fortschritte. Im anerkannten SWE-bench Verified, der die Lösung echter GitHub-Probleme misst, erzielt Sonnet 4.6 nun 79,6 Prozent und platziert sich damit knapp hinter dem größeren Modell Opus 4.6. Die künstliche Intelligenz analysiert Code-Strukturen und schreibt selbstständig funktionierende Patches.

Ein großer Sprung zeigt sich bei der agentischen Websuche. Der BrowseComp-Score klettert im Vergleich zur Version 4.5 von 43,9 Prozent auf 74,7 Prozent. Das bedeutet, dass das Modell komplexe Recherchen im Internet deutlich zielgerichteter und mit weniger Abbrüchen durchführt.

Anzeige

Langfristige Planung in Simulationen

Die Fähigkeit zur langfristigen Handlungsplanung wurde unter anderem in der Vending-Bench Arena getestet. In dieser Simulation verwalten die Modelle ein virtuelles Budget über einen Zeitraum von 350 Tagen. Sonnet 4.6 agiert hier wesentlich profitabler als die Vorversion.

Während das Vorgängermodell den Kontostand nach der Testlaufzeit auf etwa 2.000 US-Dollar anhebt, erwirtschaftet Sonnet 4.6 durch strategischere Entscheidungen ein Endguthaben von über 5.600 US-Dollar. Diese Diskrepanz entsteht durch die verbesserte Fehlerkorrektur bei aufeinanderfolgenden Transaktionen.

Quelle: Anthropic

Das erweiterte Kontextfenster von einer Million Token befindet sich aktuell noch in einer geschlossenen Testphase. Claude Sonnet 4.6 steht ab sofort über die API sowie für Nutzer der kostenlosen und der Pro-Stufe zur Verfügung.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.