Viele Nvidia HBM Speicher werden zu einem HBM Speicher

Nvidia reduziert den KI-Speicherbedarf mit neuer DMS-Technik deutlich

Die dynamische Kompression verkleinert den KV-Cache um den Faktor acht bei gleichbleibender Modellgenauigkeit.

Andreas Becker13.02.26 Nano Banana

Kurzfassung Quellen

Nvidia hat mit Dynamic Memory Sparsification eine Methode zur achtfachen Kompression des KV-Caches von Sprachmodellen entwickelt.
Die Technik analysiert Token während der Textgenerierung und löscht unwichtige Kontextinformationen dynamisch aus dem Speicher.
Dadurch sinkt der Hardwarebedarf für lange Überlegungsketten massiv, ohne die Genauigkeit der KI-Antworten zu beeinträchtigen.

Nvidia hat mit Dynamic Memory Sparsification (DMS) eine neue Methode vorgestellt, die den Speicherbedarf von Sprachmodellen bei der Textgenerierung deutlich senkt. Die Technik komprimiert den sogenannten KV-Cache um den Faktor acht, ohne die Genauigkeit der Berechnungen messbar zu verringern.

Der Flaschenhals im Arbeitsspeicher

Moderne KI-Modelle durchlaufen bei komplexen Anfragen einen ausführlichen Überlegungsprozess, bevor sie eine finale Antwort ausgeben. Jeder generierte Zwischenschritt belegt dabei Platz im sogenannten Key-Value-Cache (KV-Cache). Dieser Zwischenspeicher hält den bisherigen Kontext bereit, damit der Prozessor ihn nicht bei jedem neuen Wort komplett neu berechnen muss. Bei langen Überlegungsketten füllt sich der Videospeicher der Grafikkarten rasend schnell.

Das führt unweigerlich zu einem Hardware-Limit, da die Kapazität des Grafikspeichers die maximale Länge der Antwort begrenzt. Um längere Ausgaben zu ermöglichen, mussten Betreiber bisher teure Rechencluster mit mehr Arbeitsspeicher zusammenschalten. Eine reine Vergrößerung der Hardware skaliert jedoch schlecht und treibt die Betriebskosten in die Höhe.

Dynamisches Aussortieren von Daten

Der Lösungsansatz von Nvidia setzt exakt bei diesem Speicherproblem an. Das DMS-Verfahren analysiert während der Textausgabe kontinuierlich die Wichtigkeit der gespeicherten Token im Cache. Unwichtige oder redundante Informationen löscht der Algorithmus umgehend aus dem Speicher. Nur die für den logischen Zusammenhang zwingend notwendigen Daten verbleiben für weitere Berechnungen.

Im Gegensatz zu älteren Kompressionsmethoden arbeitet die Technik nicht mit starren Vorgaben. Laut dem veröffentlichten Forschungspapier passt sich der Löschvorgang in Echtzeit an die jeweilige Aufgabe an. Forscher der University of Edinburgh dokumentieren in einer Analyse, dass diese gezielte Verkleinerung des Speichers die Ausgabequalität sogar stabilisiert. Das Modell verliert bei sehr langen Texten seltener den Fokus durch überflüssige Kontextinformationen.

Quelle: arxiv.org/abs/2506.05345

Effizienzgewinn in der Praxis

Die Speicherersparnis durch DMS ermöglicht den Modellbetrieb mit einem Bruchteil der bisher nötigen Systemressourcen. Nvidia verspricht in den Dokumentationen eine achtfache Kompression des Speichers. Das bedeutet, dass Server achtmal längere Kontextfenster auf der exakt gleichen Grafikkarte verarbeiten. In der Praxis muss sich zeigen, ob dieser theoretische Wert bei jedem Modelltyp verlässlich greift.

Erste Implementierungen stehen der Entwicklergemeinde bereits zur Verfügung. Auf Plattformen für maschinelles Lernen finden sich angepasste Varianten aktueller Sprachmodelle, welche die DMS-Technik nativ ausführen. Gleichzeitig integriert der Hersteller den Code in seine bestehenden Basis-Bibliotheken. Erste Praxistests starten nun.