Ein Bär und qwen3-max thinking als Lehrbuch

Qwen3-Max-Thinking schlägt GPT-5.2 und Gemini 3 Pro

Deutlich mehr Leistung als Qwen3-Thinking, aber leider nicht Open Source.

Andreas Becker Alibaba
Ein Bär und qwen3-max thinking als Lehrbuch

Der chinesische Tech-Gigant Alibaba hat heute mit "Qwen3-Max-Thinking" sein bisher leistungsstärkstes KI-Modell veröffentlicht und zielt damit direkt auf die Vormachtstellung der US-Firmen. Für Entwickler und Unternehmen bedeutet dies eine Zäsur: Das neue Modell erreicht in entscheidenden Benchmarks nicht nur das Niveau von GPT-5.2 und Gemini 3 Pro, sondern übertrifft diese teilweise.

Wachablösung an der Leistungsspitze

Lange Zeit galten die Modelle von OpenAI und Google als unantastbar. Die neuesten Benchmark-Ergebnisse zeichnen jedoch ein anderes Bild. In der prestigeträchtigen Disziplin "GPQA Diamond", die Expertenwissen auf PhD-Niveau abfragt, erzielt Qwen3-Max-Thinking einen Wert von 92,8 Punkten. Damit lässt es sowohl GPT-5.2 (92,4) als auch Googles Gemini 3 Pro (91,9) hinter sich.

Besonders deutlich wird der Vorsprung bei komplexer Mathematik. Im "IMO-AnswerBench", der Aufgaben der Internationalen Mathematik-Olympiade simuliert, erreicht das chinesische Modell 86,3 Punkte, während Gemini 3 Pro bei 83,3 und Claude-Opus-4.5 bei 84,0 liegen. Alibaba beweist damit, dass chinesische Spitzenmodelle den bloßen Kopiermodus verlassen haben und nun technologisch vorlegen.

Quelle: Alibaba

Reasoning-Fähigkeiten im Fokus

Der Namenszusatz "Thinking" verrät die technische Ausrichtung. Das Modell antwortet nicht sofort reflexartig, sondern schaltet einen internen Denkprozess vor, um komplexe logische Ketten zu prüfen.

Dieser Ansatz zahlt sich besonders bei der Programmierung aus. Im "Arena-Hard v2"-Benchmark, der die Bewältigung schwieriger realer Coding-Probleme misst, dominiert Qwen mit 90,2 Punkten das Feld deutlich gegenüber Claude-Opus-4.5 (76,7) und liegt gleichauf mit spezialisierten US-Modellen. Für Software-Ingenieure, die bisher auf westliche APIs angewiesen waren, eröffnet sich hier eine ernstzunehmende Alternative.

Quelle: Alibaba
Anzeige

Strategie-Split: Maximale Leistung bleibt verschlossen

Wer gehofft hatte, die absolute Leistungsspitze lokal auf eigenen Servern betreiben zu können, wird enttäuscht. Alibaba fährt eine zweigleisige Strategie: Das Top-Modell "Qwen3-Max-Thinking" bleibt hinter verschlossenen Türen und ist – genau wie GPT-5.2 oder Gemini 3 Pro – ausschließlich über Alibabas Cloud-API verfügbar. Für die Open-Source-Community steht lediglich das leicht schwächere "Qwen3-Thinking" zum Download bereit.

Das stellt europäische Unternehmen vor ein Dilemma. Wer die volle "Max"-Leistung will, muss seine Daten über die API auf chinesische Server routen. Neben der DSGVO-Thematik rückt damit auch die unvermeidliche Zensur der chinesischen Regulatoren in den Fokus, die bei API-Anfragen greift. Die lokale Variante umgeht dieses Problem zwar, erfordert aber einen Kompromiss bei der reinen Rechenpower.

Grenzen und Konkurrenz

Trotz der beeindruckenden Werte ist das Rennen nicht gelaufen. In Tests zum allgemeinen Weltwissen wie "MMLU-Pro" liegt Gemini 3 Pro mit 89,8 Punkten weiterhin knapp vor Qwen (85,7). Das deutet darauf hin, dass Google in der Breite der Trainingsdaten noch Vorteile besitzt, während Alibaba bei der logischen Tiefe aufgeholt hat. Zudem zeigt der Vergleich mit DeepSeek V3.2, dass auch innerhalb Chinas ein harter Wettbewerb um die Krone der künstlichen Intelligenz entbrannt ist.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.