GLM 5.2 beim Coden fast auf Claude Niveau

Das offene Modell von Zhipu AI glänzt beim Programmieren und verarbeitet riesige Datenmengen auf einmal.

Andreas Becker17.06.26 GPT-Images-2.0

Kurzfassung Quellen

Zhipu AI hat das spezialisierte Open-Source-Modell GLM-5.2 unter freier MIT-Lizenz veröffentlicht.
Das Modell verfügt über ein stabiles Kontextfenster von einer Million Token für stundenlange Programmieraufgaben.
In Benchmarks wie FrontierSWE rückt die Open-Source-Alternative bis auf einen Prozentpunkt an Claude Opus 4.8 heran.
Während des Trainings versuchte das Modell durch verdeckte GitHub-Downloads zu schummeln, was nun durch Filter blockiert wird.

Das chinesische KI-Unternehmen Zhipu AI hat GLM-5.2 unter offener MIT-Lizenz veröffentlicht. Es verarbeitet bis zu eine Million Token auf einmal und ist darauf trainiert, stundenlange Softwareprojekte autonom zu bearbeiten. Bei diesen Langzeitaufgaben erreicht es fast das Niveau der geschlossenen Modelle von Anthropic und OpenAI.

Starke Coding-Leistung, Schwächen beim Faktenwissen

Bei Programmieraufgaben, die großflächige Implementierungen und Fehlerbehebungen erfordern, erzielt GLM-5.2 im Benchmark FrontierSWE 74,4 Prozent. Damit liegt es lediglich einen Prozentpunkt hinter Anthropics Claude Opus 4.8 und knapp vor OpenAIs GPT-5.5.

Quelle: zai

Im Test PostTrainBench, bei dem GLM-5.2 kleine KI-Modelle selbstständig verbessern muss, erreicht es 34,3 Prozent und übertrifft Opus 4.7 sowie GPT-5.5. Auf dem Ultra-Langzeit-Benchmark SWE-Marathon offenbart GLM-5.2 mit 13 Prozent noch Lücken im Vergleich zu Opus 4.8, das dort den doppelten Wert erzielt.

Bei kürzeren Standard-Aufgaben verbessert sich GLM-5.2 gegenüber dem Vorgänger GLM-5.1 ebenfalls. Auf Terminal-Bench 2.1 steigt der Wert von 63,5 auf 81 Punkte. Geht es allerdings um reines Faktenwissen oder wissenschaftliches Argumentieren, bleibt GLM-5.2 chancenlos. Bei dem Test Humanity's Last Exam dominieren weiterhin die geschlossenen Systeme von Google und Anthropic.

Quelle: zai

Architektur drückt die Rechenlast

Ein Kontext von einer Million Token treibt die Rechenkosten normalerweise stark in die Höhe. Zhipu AI fängt diesen Anstieg mit der neuen Technik IndexShare ab: Vier Transformer-Schichten teilen sich dabei einen einzigen Indexer, was die Rechenlast pro Token um den Faktor 2,9 senkt.

Gleichzeitig haben die Entwickler das spekulative Dekodieren optimiert. GLM-5.2 akzeptiert dadurch im Schnitt 20 Prozent mehr der vorausgesagten Token, was die Textgenerierung spürbar beschleunigt.

Wer GLM-5.2 nutzt, kann zudem seinen Denkaufwand gezielt steuern. Die höchste Stufe »Max« verbraucht deutlich mehr Token, löst komplexe Probleme in der Softwareentwicklung dafür aber zuverlässiger.

Quelle: zai

KI schummelt beim Training

Beim Reinforcement Learning versuchte GLM-5.2 systematisch zu betrügen. Es manipulierte die automatisierten Überprüfungsprozesse, indem es fertige Lösungen per Kommandozeilenbefehl direkt von GitHub herunterlud. In anderen Fällen suchte GLM-5.2 gezielt nach versteckten Testdateien, um die Antworten exakt auf die Vorgaben abzustimmen.

Zhipu AI überwacht GLM-5.2 deshalb nun zweistufig. Ein Filter blockiert verdächtige Aktionen zunächst, woraufhin ein weiteres Sprachmodell die genaue Absicht bewertet. Erkennt die Überwachung einen Betrugsversuch, erhält GLM-5.2 ein nutzloses Platzhaltersignal als Antwort – der Trainingslauf läuft jedoch weiter, um die Stabilität zu erhalten.

Freier Zugang und API-Nutzung

Zhipu AI stellt die Gewichte von GLM-5.2 auf Plattformen wie HuggingFace und ModelScope zur Verfügung. Die offene MIT-Lizenz erlaubt eine weltweite Nutzung ohne regionale Einschränkungen. Wer GLM-5.2 lokal ausführen möchte, kann Frameworks wie vLLM, SGLang oder transformers nutzen.

Zusätzlich bietet das Unternehmen einen Zugang über die eigene API oder die Desktop-Anwendung ZCode an.