Oberflaeche von ZAI

GLM-4.5: Der neue Open-Source-Alleskönner

Text, Code, Bilder und sogar Spiele: Zhipu AIs Modell bietet mehr als erwartet. Kann das der nächste große KI-Hit werden?

Oberflaeche von ZAI
gpt-image-1 | All-AI.de

EINLEITUNG

Das chinesische KI-Start-up Zhipu AI mischt den Markt für offene Sprachmodelle auf. Mit GLM-4.5 und der multimodalen Variante GLM-4.5V bringt das Unternehmen Modelle, die nicht nur programmieren und argumentieren können, sondern auch Bilder und Videos verstehen. Dank einer durchdachten Architektur und offenem Zugang richtet sich das Angebot an Entwickler, Forscher und Unternehmen. Was steckt dahinter – und was macht es besonders?

NEWS

Zwei Modi, ein Ziel

GLM-4.5 vereint zwei Betriebsmodi in einem Modell: einen Thinking-Mode für komplexes Denken und einen Schnellmodus für zügige Antworten. Damit soll es nicht nur kurze Antworten liefern, sondern auch bei anspruchsvollen Aufgaben bestehen – etwa beim Programmieren oder logischen Schließen.

In internen Tests erreicht GLM-4.5 auf zwölf Benchmarks den dritten Platz und liegt bei bestimmten Aufgaben, etwa beim Browsen im Web oder beim mathematischen Denken, sogar vor bekannten Modellen wie Claude Opus. Besonders auffällig: Das Modell erzielt diese Werte mit deutlich weniger Parametern – ein Hinweis auf hohe Effizienz.

Quelle: zAI

Architektur mit Tiefe

Technisch basiert das Modell auf einer Mixture-of-Experts-Architektur. Zwar umfasst das Modell insgesamt 355 Milliarden Parameter, doch nur ein Bruchteil davon – 32 Milliarden – ist jeweils aktiv. Das spart Rechenleistung. Die leichtere Version, GLM-4.5-Air, reduziert diesen Wert noch einmal deutlich.

Statt auf besonders breite Schichten setzt Zhipu AI auf viele tiefe Schichten. Diese Struktur soll nach eigenen Angaben das Denkvermögen verbessern. Unterstützt wird das durch neue Mechanismen wie Multi-Token-Vorhersage und viele Attention-Heads, die komplexe Muster besser erfassen können.

Multimodal und praktisch

GLM-4.5V erweitert das System um Bild- und Videofunktionen. Es kann etwa Screenshots analysieren, daraus Webseiten rekonstruieren oder einfache Spiele bauen. In einer Demo genügt ein kurzer Prompt, um ein spielbares Mini-Game im Browser zu erzeugen. Auch komplexere Anwendungen wie komplette Web-Apps lassen sich erstellen.

Die multimodale Variante baut auf dem leichteren Air-Modell auf und bietet so ein gutes Verhältnis aus Leistung und Ressourcenverbrauch. Für Nutzer mit speziellen Anforderungen an visuelle Inhalte oder autonome Agenten ist das Modell besonders interessant.

Offen und bereit zur Nutzung

Zhipu AI setzt bewusst auf Offenheit. Code und Modellgewichte stehen unter MIT-Lizenz frei zur Verfügung – unter anderem auf Hugging Face. Auch die Nutzung über eine OpenAI-kompatible API ist möglich. Die Plattform z.ai bietet zudem eine Weboberfläche für eigene Tests.

Durch die Kombination aus leistungsfähiger Architektur, breitem Funktionsspektrum und offener Bereitstellung positioniert sich Zhipu AI als ernstzunehmender Akteur im Open-Source-Segment. Entscheidend wird nun sein, wie das Modell im Alltag performt – und wie gut es sich in bestehende Workflows integrieren lässt.

DEIN VORTEIL - DEINE HILFE

Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung.

Teile diesen Beitrag

Folge uns auf Social Media

Keine KI-News mehr verpassen und direkt kommentieren!

Unterstütze uns direkt

Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support!

KURZFASSUNG

  • Zhipu AI stellt mit GLM-4.5 und GLM-4.5V zwei leistungsfähige Open-Source-Modelle vor, die Text, Code und visuelle Inhalte verarbeiten können.
  • Die Architektur basiert auf einer effizienten Mixture-of-Experts-Struktur mit tiefen Netzwerken und neuen Vorhersageverfahren.
  • Das Modell erreicht starke Benchmark-Ergebnisse bei geringem Ressourcenverbrauch und steht unter MIT-Lizenz frei zur Verfügung.
  • Besonders interessant: Die visuelle Variante GLM-4.5V kann Web-Apps aus Bildern generieren und wird per API einfach nutzbar gemacht.

QUELLEN