Google KI läuft jetzt lokal auf jedem Smartphone

Das KI-Modell Gemma 4 ist in stark komprimierten Versionen erschienen. Das kleinste Modell benötigt gerade mal 0,84 GB RAM.

Andreas Becker05.06.26 GPT-Images-2.0

Kurzfassung Quellen

Google DeepMind veröffentlicht extrem verkleinerte Versionen der Gemma-4-Modelle für lokale Hardware und Handys.
Durch ein neues Trainingsverfahren namens QAT sinkt der Speicherbedarf drastisch, ohne die Antwortqualität stark zu beeinträchtigen.
Die kleinste reine Textversion belegt auf mobilen Geräten lediglich 0,84 Gigabyte Arbeitsspeicher.
Die Modelle lassen sich direkt über bekannte Programme wie Ollama oder LM Studio auf dem eigenen Computer nutzen.

Google DeepMind veröffentlicht neue Versionen der Gemma-4-Modelle, die speziell für den Einsatz auf Smartphones und normalen Computern optimiert sind. Dank einer neuen Trainingsmethode sinkt der Speicherbedarf der kleinsten Variante auf unter ein Gigabyte.

Neues Training schützt die Qualität

Bisher litten Sprachmodelle häufig unter merklichen Qualitätsverlusten, wenn Entwickler sie nach der ersten Lernphase nachträglich verkleinerten. Google umgeht dieses Problem nun durch das sogenannte Quantization-Aware Training.

Bei diesem Verfahren simuliert das System die spätere Datenkomprimierung bereits während des Lernprozesses. Das KI-Modell passt sich dadurch frühzeitig an und minimiert den Qualitätsverlust automatisch.

Das Ergebnis sind kompakte Checkpoints im verbreiteten Q4_0-Format. Diese laufen deutlich schneller und effizienter auf handelsüblichen Grafikkarten in Desktop-Computern.

Mobile Geräte im Fokus

Besonders auf dem Smartphone zeigen die neuen KI-Modelle ihre Stärken. Für die beiden Varianten Gemma 4 E2B und E4B entwickelte Google eine komplett neue Struktur, die exakt auf die Rechenwerke aktueller Handy-Prozessoren zugeschnitten ist.

Ein Blick auf den Arbeitsspeicherbedarf verdeutlicht den Unterschied. Die reine Textversion des kleinsten Modells benötigt lediglich 0,84 Gigabyte Arbeitsspeicher. Damit läuft die KI auch auf älteren Geräten flüssig.

Die etwas größere E4B-Variante begnügt sich in der textbasierten Form mit 2,2 Gigabyte. Zum Vergleich: Die unkomprimierte 16-Bit-Version belegte zuvor knapp 18 Gigabyte Speicherplatz.

Quelle: Google

Technik für schnelle Antworten

Um diese Werte zu erreichen, veränderte Google die Arbeitsweise der Modelle stark. Das Programm berechnet Skalierungen nicht mehr während der Texteingabe, sondern nutzt vorberechnete Werte, was den Prozessor spürbar entlastet.

Zudem komprimierten die Entwickler spezielle Bereiche des Modells, die für die Textgenerierung zuständig sind, extrem stark auf zwei Bit. Die wichtigen Schichten für die eigentliche Logik arbeiten hingegen weiterhin mit höherer Präzision.

Anwender sparen weiteren Speicher, indem sie nicht benötigte Programmteile für Audio- und Bildverarbeitung einfach entfernen. Das ermöglicht sehr lange Unterhaltungen, ohne dass der Speicher des Smartphones voll läuft.

Programme stehen bereit

Interessierte finden die neuen Dateien auf der Entwicklerplattform Hugging Face. Dort laden sie die passenden Formate für ihre jeweiligen Systeme herunter.

Google kooperiert eng mit den Anbietern bekannter Programme. Die geschrumpften Modelle funktionieren daher direkt in lokalen Oberflächen wie Ollama, llama.cpp oder LM Studio.

Für den Einsatz auf Smartphones steht die Umgebung LiteRT-LM bereit. Alternativ starten Anwender die komprimierten Varianten auch direkt über den Internetbrowser mit Transformers.js.