DeepSeek spekuliert und wird dadurch 85% schneller
DSpark beschleunigt die Textausgabe von Sprachmodellen um bis zu 85 Prozent. Die Antwortqualität bleibt dabei komplett erhalten.

DeepSeek hat das Open-Source-Framework DeepSpec auf GitHub veröffentlicht. Der dazugehörige Algorithmus DSpark beschleunigt die Textausgabe bestehender KI-Modelle um bis zu 85 Prozent. Deren Intelligenz und Antwortqualität bleiben dabei erhalten.
Arbeitsteilung bei der Generierung
Viele Chatbots tippen ihre Antworten langsam auf den Bildschirm. Das liegt daran, dass große KI-Modelle jedes Textfragment nacheinander berechnen. DSpark umgeht diesen Flaschenhals durch eine Technik, die Fachleute »Speculative Decoding« nennen.
Die Rechenarbeit wird dabei auf zwei Instanzen aufgeteilt. Ein kleines Entwurfsmodul schlägt mehrere Wörter parallel vor. Das Hauptmodell prüft diese Vorhersagen anschließend in einem einzigen Rechendurchgang.
Sind die Vorschläge richtig, übernimmt es sie sofort. Bei einem Fehler korrigiert das Hauptmodell lediglich dieses eine falsche Wort. Die restliche, korrekte Kette bleibt bestehen.
Anzeige
Bestehende Modelle brauchen kein Neutraining
Entwickler müssen ihre Modelle für diesen Vorgang nicht neu trainieren. Das Entwurfsmodul funktioniert wie ein Aufsatz für die bestehende Architektur. DeepSeek hat das an seinen Modellen V4-Flash und V4-Pro getestet.
Die Ausgabegeschwindigkeit stieg dort um 60 bis 85 Prozent. Für Betreiber sinken durch diese Effizienz die direkten Hardware-Kosten. Sie können mit weniger Servern die gleiche Anzahl an Nutzeranfragen verarbeiten.
DeepSpec richtet sich primär an gut ausgestattete Entwicklungsabteilungen. Das Standard-Setup für das Training eigener Entwurfsmodelle erfordert einen Verbund aus acht Grafikprozessoren sowie rund 38 Terabyte freien Speicherplatz. DeepSeek stellt den vollständigen Quellcode und die Datensätze unter der offenen MIT-Lizenz zur Verfügung.