Google DeepMind veröffentlicht Gemma 4 12B

Das neue Open-Source-Modell verzichtet auf traditionelle Encoder und schont den lokalen Arbeitsspeicher beim Rechnen.

Andreas Becker03.06.26 Google

Kurzfassung Quellen

Google DeepMind präsentiert mit Gemma 4 12B ein neues, offenes KI-Modell für den lokalen Einsatz auf Laptops.
Durch eine veränderte Architektur fließen Audio- und Bilddaten ohne separate Encoder direkt in das Sprachmodell.
Das System benötigt lediglich 16 Gigabyte Arbeitsspeicher und erreicht in Benchmarks fast die Leistung deutlich größerer Modelle.
Die Open-Source-Variante steht unter der Apache-2.0-Lizenz ab sofort auf Plattformen wie Hugging Face zum Download bereit.

Google DeepMind hat das neue KI-Modell Gemma 4 12B veröffentlicht, das komplexe multimodale Aufgaben direkt auf herkömmlichen Laptops ausführt. Die Open-Source-Variante verarbeitet Bild- und Audiodaten erstmals ohne separate Encoder, was die Effizienz lokal laufender KI-Systeme stark verbessert.

Schlanke Architektur ohne separate Encoder

Die technische Besonderheit des Modells liegt im Verzicht auf traditionelle, vorgeschaltete Encoder für visuelle und akustische Daten. Stattdessen fließen Bildsignale und Audiosignale über ein schlankes Embedding-Modul direkt in den zentralen Sprachmodell-Kern.

Dieses Design reduziert die Latenz sowie den Speicherbedarf im Vergleich zu klassischen Modellen erheblich. Für Entwickler stehen zudem spezielle Multi-Token-Prediction-Drafter bereit, die Antwortzeiten bei lokalen Anwendungen weiter minimieren.

Hohe Leistung bei geringem Speicherbedarf

Mit einer Größe von zwölf Milliarden Parametern schließt die Neuentwicklung die Lücke zwischen kleineren Edge-Modellen und komplexen Systemen. Gemäß der Grafik erreicht Gemma 4 12B in Tests fast das Niveau der größeren 26B-Variante. Im DocVQA-Benchmark für Dokumenten-Fragen übertrifft die kompakte Version mit 94,9 Punkten sogar den größeren Bruder, der auf rund 93 Punkte kommt.

Quelle: Google

Für den lokalen Betrieb genügen 16 Gigabyte Videospeicher oder ein entsprechender gemeinsamer Arbeitsspeicher auf gängigen Consumer-Geräten. Dadurch lassen sich komplexe Aufgaben wie die Offline-Transkription und die Übersetzung von Sprache ohne bestehende Internetverbindung realisieren.

Das unter der Apache-2.0-Lizenz stehende Modell ist für Entwickler über Plattformen wie Hugging Face und Kaggle frei verfügbar. Eine breite Unterstützung ist auch durch Ollama, LM Studio und llama.cpp gegeben.