Gemma 4 schlägt deutlich größere KI-Modelle

Mit vier neuen Modellvarianten bringt Google komplexe Logik auf Smartphones und Workstations.

Andreas Becker02.04.26 Nano Banana

Kurzfassung Quellen

Google veröffentlicht die neue Gemma-4-Modellfamilie, bestehend aus vier Open-Source-Modellen unter der Apache-2.0-Lizenz.
Die KI-Modelle sind multimodal, unterstützen bis zu 256.000 Token Kontext und laufen lokal auf Endgeräten bis hin zu Server-GPUs.
Besonders die Modelle 31B und 26B MoE erreichen in Benchmarks wie Arena AI Spitzenplätze und übertreffen deutlich größere Modelle.

Google veröffentlicht mit Gemma 4 eine neue Generation offener KI-Modelle unter der kommerziell nutzbaren Apache-2.0-Lizenz. Die vier Varianten zielen auf komplexe Logik ab und schlagen in aktuellen Benchmarks teilweise deutlich größere Konkurrenten.

Hohe Leistung bei geringer Parameterzahl

Die Modellfamilie erscheint in vier Größen: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) und 31B Dense. Besonders die großen Ausführungen fallen in der Arena-AI-Bestenliste durch ungewöhnlich hohe Elo-Werte auf. Das 31B-Modell belegt dort aktuell den dritten Platz unter den weltweit verfügbaren offenen Modellen. Die 26B-Variante sichert sich den sechsten Platz und übertrifft laut den vorliegenden Messdaten KI-Modelle, die bis zu 20-fach höhere Parameter aufweisen.

Entwickler betreiben die unquantisierten bfloat16-Gewichte der 26B- und 31B-Modelle auf einer einzelnen Nvidia H100 GPU mit 80 Gigabyte Speicher. Die MoE-Architektur fokussiert sich auf eine geringe Latenz und aktiviert während der Inferenz lediglich 3,8 Milliarden Parameter. Das erhöht die Ausgabegeschwindigkeit der generierten Token erheblich.

Quelle: Google

Multimodalität für den Offline-Einsatz

Die beiden kompakteren Modelle E2B und E4B laufen vollständig offline auf mobilen Endgeräten sowie IoT-Hardware wie dem Raspberry Pi. Sie schonen den lokalen Arbeitsspeicher und verarbeiten Informationen verzögerungsfrei. Neben Text und Programmcode analysieren alle Modelle der Familie nativ Bilder und Videos in unterschiedlichen Auflösungen.

Google spendiert den E2B- und E4B-Varianten zusätzlich einen direkten Audio-Eingang für die Spracherkennung. Bei diesen Edge-Modellen verarbeitet das System ein Kontextfenster von 128.000 Token. Die großen Modelle fassen sogar 256.000 Token, wodurch Nutzer komplexe Code-Repositories oder umfangreiche Datensätze in einem einzigen Prompt übergeben. Alle Modelle beherrschen über 140 Sprachen.

Offene Architektur für Agenten-Workflows

Entwickler nutzen das gesamte Gemma-4-Portfolio unter der permissiven Apache-2.0-Lizenz. Sie erhalten dadurch vollständige Kontrolle über ihre Datenstrukturen, erweiterte Freiheiten für das eigene Fine-Tuning und kommerzielle Einsatzmöglichkeiten. Das System generiert native JSON-Strukturen und unterstützt Function-Calling für den Aufbau autonomer Agenten.

»Die Veröffentlichung von Gemma 4 unter einer Apache-2.0-Lizenz ist ein riesiger Meilenstein«, betont Hugging-Face-CEO Clément Delangue. Die verschiedenen Varianten der KI-Modelle stehen ab sofort auf Entwicklerplattformen wie Hugging Face, Kaggle und Ollama bereit.