Ein Benchmark zwischen Opus, Gemini und GPT

Claude bringt 1M-Kontext und deklassiert Gemini-3 und GPT-5.4

Die KI-Modelle Opus und Sonnet verarbeiten ab sofort eine Million Token. Benchmarks zeigen, dass sie dabei deutlich präziser bleiben als die Konkurrenz.

Andreas Becker Nano Banana
Ein Benchmark zwischen Opus, Gemini und GPT

Anthropic hat das riesige Kontextfenster von einer Million Token für seine KI-Modelle Claude Opus 4.6 und Sonnet 4.6 offiziell für alle Nutzer zugänglich gemacht. Neue Leistungstests zeigen dabei, dass die Sprachmodelle auch bei enormen Datenmengen präzise bleiben und Konkurrenten wie GPT-5.4 auf die hinteren Plätze verweisen.

Konstante Leistung bei riesigen Datenmengen

Das Verarbeiten von Millionen von Wörtern am Stück stellt künstliche Intelligenzen häufig vor Probleme. Viele Modelle vergessen Informationen aus dem Anfangsbereich eines langen Textes oder verlieren ihre Fähigkeit zum logischen Denken. Anthropic demonstriert nun mit den begleitenden Benchmarks zur Veröffentlichung, dass die neuen Claude-Modelle diese Hürde erfolgreich nehmen.

Beim Test zur exakten Informationsabfrage (Long Context Retrieval) erreicht das Top-Modell Opus 4.6 bei einem Kontext von 256.000 Token eine Trefferquote von knapp 92 Prozent. Reizt man das Fenster komplett auf eine Million Token aus, sinkt dieser Wert nur leicht auf 78,3 Prozent. Das schnellere Modell Sonnet 4.6 hält bei voller Auslastung noch einen soliden Wert von 65,1 Prozent.

Quelle: Anthropic

Die Auswertungen setzen diese Ergebnisse in direkten Kontrast zu den stärksten Konkurrenzmodellen auf dem Markt. Das Modell GPT-5.4 von OpenAI startet im Bereich um die 200.000 Token mit 79,3 Prozent, bricht dann aber bei einer Million Token stark auf 36,6 Prozent ein. Googles Gemini 3.1 Pro fällt bei der maximalen Auslastung sogar auf eine Genauigkeit von lediglich 25,9 Prozent ab.

Anzeige

Spitzenwerte beim logischen Denken

Ein ähnliches Bild zeigt sich bei Aufgaben, die komplexes logisches Denken über den gesamten Textverlauf erfordern (Long Context Reasoning). Opus 4.6 verliert über die Distanz von einer Million Token nur wenige Prozentpunkte und sichert sich mit einem Score von 68,4 Prozent den klaren Spitzenplatz. Mit der offiziellen Freigabe positioniert sich Anthropic damit gezielt für professionelle Anwender, die sehr große Codebasen fehlerfrei bearbeiten oder umfangreiche Dokumentenarchive verlässlich auswerten müssen.

Quelle: Anthropic

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.