Ein Grafikkarte mit Power und Idle

Wie ein kleines Hilfsmodell das KI-Training drastisch beschleunigt

Die neue MIT-Methode TLT nutzt freie Kapazitäten von Grafikkarten, um den Lernprozess großer Sprachmodelle sichtbar zu optimieren.

Andreas Becker Nano Banana
Ein Grafikkarte mit Power und Idle

Forscher des MIT haben mit „TLT“ (Taming the Long-Tail) ein neues Verfahren vorgestellt, das das Training von Reasoning-Modellen deutlich beschleunigt. Die Methode nutzt gezielt die Leerlaufzeiten von Grafikkarten, um den Lernprozess ohne zusätzliche Kosten effizienter zu gestalten.

Das Problem der langen Antworten

Beim Training moderner KI-Modelle durch Reinforcement Learning entsteht oft ein technischer Flaschenhals. Sogenannte Reasoning-Modelle generieren vor der eigentlichen Ausgabe ausführliche Lösungswege. Diese internen Gedankengänge fallen je nach Aufgabe unterschiedlich lang aus.

Wenn eine Grafikkarte (GPU) eine kurze Antwort schnell verarbeitet hat, muss sie warten, bis andere GPUs ihre extrem langen Antworten beendet haben. Dieser Effekt wird in der Informatik als „Long-Tail“ bezeichnet. Er führt zu ungenutzter Rechenleistung und treibt die Dauer sowie die finanziellen Kosten für das Training spürbar in die Höhe. Bisherige Optimierungen konnten dieses Problem nur schwer lösen, da die dynamische Natur des Vorgangs eine gleichmäßige Hardware-Auslastung erschwert.

Wie das System die Leerlaufzeiten füllt

Um diese teuren Wartezeiten sinnvoll zu nutzen, setzt die Architektur auf eine Technik namens Adaptive Speculative Decoding. TLT trainiert auf den pausierenden GPUs kontinuierlich ein kleines Entwurfsmodell, den sogenannten Adaptive Drafter.

Dieses kompakte Hilfsmodell läuft asynchron im Hintergrund. Es passt sich permanent an den aktuellen Stand des großen Hauptmodells an. Sobald es einsatzbereit ist, generiert das kleine Modell sehr schnell vorläufige Textbausteine für die Lösungswege. Das große, rechenintensive Modell muss diese Vorschläge anschließend nur noch in einem Durchgang überprüfen und absegnen. Stimmen die Entwürfe, spart das System enorm viel Zeit im Vergleich zur aufwendigen Eigen-Generierung jedes einzelnen Tokens.

Anzeige

Messbare Zeitersparnis für Entwickler

Durch diesen Kniff beschleunigt sich der gesamte Trainingsprozess beachtlich. Erste Messungen der Wissenschaftler zeigen, dass die Methode das End-to-End-Training im Vergleich zu bestehenden Systemen um das 1,7-Fache verkürzt.

Die mathematische Genauigkeit bleibt dabei vollständig erhalten, sodass die Qualität der generierten KI-Antworten nicht sinkt. Zudem steht am Ende des Trainings ein optimiertes Draft-Modell zur Verfügung, das sich direkt für den späteren Betrieb der Software nutzen lässt. Der Quellcode für das neue System liegt bereits als Open Source auf der Plattform GitHub bereit.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.