Wie ein kleines Hilfsmodell das KI-Training drastisch beschleunigt

Die neue MIT-Methode TLT nutzt freie Kapazitäten von Grafikkarten, um den Lernprozess großer Sprachmodelle sichtbar zu optimieren.

Andreas Becker26.02.26 Nano Banana

Kurzfassung Quellen

Forscher haben eine Methode namens „Taming the Long-Tail“ (TLT) entwickelt, die das Training von Reasoning-Modellen deutlich effizienter macht.
Die Technik nutzt die Hardware-Leerlaufzeiten von Grafikkarten, die unweigerlich entstehen, wenn KI-Modelle unterschiedlich lange Lösungswege berechnen.
Während dieser Pausen trainiert das System ein kleines Hilfsmodell, welches die Textgenerierung durch schnelle Vorschläge beschleunigt.
Dadurch lässt sich der gesamte Trainingsprozess um das 1,7-Fache verkürzen, ohne dass die Genauigkeit der KI abnimmt.

Forscher des MIT haben mit „TLT“ (Taming the Long-Tail) ein neues Verfahren vorgestellt, das das Training von Reasoning-Modellen deutlich beschleunigt. Die Methode nutzt gezielt die Leerlaufzeiten von Grafikkarten, um den Lernprozess ohne zusätzliche Kosten effizienter zu gestalten.

Das Problem der langen Antworten

Beim Training moderner KI-Modelle durch Reinforcement Learning entsteht oft ein technischer Flaschenhals. Sogenannte Reasoning-Modelle generieren vor der eigentlichen Ausgabe ausführliche Lösungswege. Diese internen Gedankengänge fallen je nach Aufgabe unterschiedlich lang aus.

Wenn eine Grafikkarte (GPU) eine kurze Antwort schnell verarbeitet hat, muss sie warten, bis andere GPUs ihre extrem langen Antworten beendet haben. Dieser Effekt wird in der Informatik als „Long-Tail“ bezeichnet. Er führt zu ungenutzter Rechenleistung und treibt die Dauer sowie die finanziellen Kosten für das Training spürbar in die Höhe. Bisherige Optimierungen konnten dieses Problem nur schwer lösen, da die dynamische Natur des Vorgangs eine gleichmäßige Hardware-Auslastung erschwert.

Wie das System die Leerlaufzeiten füllt

Um diese teuren Wartezeiten sinnvoll zu nutzen, setzt die Architektur auf eine Technik namens Adaptive Speculative Decoding. TLT trainiert auf den pausierenden GPUs kontinuierlich ein kleines Entwurfsmodell, den sogenannten Adaptive Drafter.

Dieses kompakte Hilfsmodell läuft asynchron im Hintergrund. Es passt sich permanent an den aktuellen Stand des großen Hauptmodells an. Sobald es einsatzbereit ist, generiert das kleine Modell sehr schnell vorläufige Textbausteine für die Lösungswege. Das große, rechenintensive Modell muss diese Vorschläge anschließend nur noch in einem Durchgang überprüfen und absegnen. Stimmen die Entwürfe, spart das System enorm viel Zeit im Vergleich zur aufwendigen Eigen-Generierung jedes einzelnen Tokens.

Messbare Zeitersparnis für Entwickler

Durch diesen Kniff beschleunigt sich der gesamte Trainingsprozess beachtlich. Erste Messungen der Wissenschaftler zeigen, dass die Methode das End-to-End-Training im Vergleich zu bestehenden Systemen um das 1,7-Fache verkürzt.

Die mathematische Genauigkeit bleibt dabei vollständig erhalten, sodass die Qualität der generierten KI-Antworten nicht sinkt. Zudem steht am Ende des Trainings ein optimiertes Draft-Modell zur Verfügung, das sich direkt für den späteren Betrieb der Software nutzen lässt. Der Quellcode für das neue System liegt bereits als Open Source auf der Plattform GitHub bereit.