Aus einer Oberfläche wird Programmcode

GLM-5V-Turbo schreibt Code aus Bildern

Das multimodale Coding-Modell übersetzt Design-Mockups und Benutzeroberflächen nativ in ausführbaren Programmcode.

Andreas Becker Nano Banana
Aus einer Oberfläche wird Programmcode

Das KI-Unternehmen Z-AI hat mit GLM-5V-Turbo ein neues multimodales Coding-Modell veröffentlicht. Die Architektur verarbeitet neben Text auch Bilder, Videos und Benutzeroberflächen nativ und übersetzt diese visuellen Eingaben direkt in Programmcode oder autonome Agenten-Workflows.

Visuelles Verständnis trifft Code-Generierung

Bisherige Ansätze trennten häufig die Bilderkennung von der Programmierlogik. GLM-5V-Turbo verknüpft beide Welten durch eine native multimodale Fusion direkt miteinander. Ein frischer CogViT-Vision-Encoder bildet die technologische Basis für das System. Dadurch versteht die Architektur Design-Mockups, Software-Screenshots und Dokumentenlayouts punktgenau, ohne den Textkontext zu verlieren.

Entwickler nutzen das KI-Modell primär für den Nachbau von Frontends. Die Software analysiert visuelle Vorlagen und schreibt daraus direkt den passenden Code. Ebenso deckt das System das visuelle Debugging von fehlerhaften Web-Oberflächen ab. Für reale GUI-Aufgaben kooperiert das Modell nativ mit Frameworks wie OpenClaw.

Twitter Beitrag - Cookies links unten aktivieren.

Technische Spezifikationen und Agenten-Fokus

Z-AI stattet das System mit einem Kontextfenster von 200.000 Token aus. Bei der Ausgabe liefert die KI bis zu 128.000 Token am Stück. Diese Kapazitäten reichen für die meisten tiefgreifenden Agenten-Workflows aus, in denen Wahrnehmung, Planung und Ausführung zusammenlaufen. Ein kombiniertes Reinforcement Learning über mehr als 30 Aufgabentypen hinweg sorgt dafür, dass das Modell nötige Aktionen präziser vorhersagt.

In den Benchmarks dominiert das Modell besonders im Bereich Multimodal Coding. Beim Testlauf Design2Code erzielt GLM-5V-Turbo starke 94,8 Punkte und verweist das Konkurrenzmodell Claude Opus 4.6 auf die hinteren Plätze. Im klassischen textbasierten Backend-Coding offenbart das System allerdings noch Schwächen gegenüber der Top-Riege.

Quelle: Z AI

API-Kosten und Integration

Z-AI positioniert GLM-5V-Turbo als direkt nutzbares API-Produkt. Eine Million Input-Token kosten 1,20 US-Dollar. Generiert das Modell eine Million Output-Token, stellt der Anbieter 4,00 US-Dollar in Rechnung. Das Zwischenspeichern von Eingaben kostet regulär 0,24 US-Dollar, bleibt zum Start aber zeitlich begrenzt gratis.

Entwickler erhalten damit einen direkt greifbaren Baustein, um visuelle Eingaben ohne Umwege in funktionierende Software zu transformieren.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.