Warum KI ein neues »Supercomputernetzwerk« benötigt

Mit dem neuen MRC-Protokoll von OpenAI gehören teure Verbindungsabbrüche beim Training großer Sprachmodelle endgültig der Vergangenheit an.

Andreas Becker06.05.26 OpenAI

Kurzfassung Quellen

Das neue Netzwerkprotokoll Multipath Reliable Connection (MRC) löst das Problem fehleranfälliger Datenverbindungen beim synchronen KI-Training.
Indem Datenpakete über hunderte parallele Pfade verteilt werden, kann das System Hardwareausfälle innerhalb von Mikrosekunden erkennen und umgehen.
Die Technologie entlastet Switches durch statisches Routing und ermöglicht den Bau stromsparender Rechenzentren mit bis zu 131.000 GPUs.
Um einen einheitlichen Branchenstandard zu etablieren, wurde MRC in Zusammenarbeit mit führenden Hardware-Herstellern als Open-Source-Projekt veröffentlicht.

Das Training gigantischer KI-Modelle scheitert oft an herkömmlichen Netzwerken, weil ein einziger Verbindungsausfall zehntausende GPUs zum Stillstand zwingen kann. Das neu entwickelte, quelloffene Netzwerkprotokoll Multipath Reliable Connection löst dieses Problem nun mit extrem kurzen Reaktionszeiten.

Synchroner Takt als Achillesferse

Klassische Netzwerke in Rechenzentren vertrauen auf die Statistik großer Zahlen, wobei tausende unabhängige Datenströme sich gegenseitig ausgleichen. KI-Training funktioniert jedoch völlig anders. Zehntausende Beschleuniger berechnen hierbei synchron einen einzigen Arbeitsschritt. Fällt auch nur eine einzige optische Verbindung kurzzeitig aus, warten alle anderen Recheneinheiten im Cluster auf diese spezifischen Daten.

Dieser synchrone Takt potenziert die Auswirkungen von Hardwarefehlern extrem. Herkömmliche Routing-Protokolle wie BGP benötigen oft mehrere Sekunden, um einen Ausfall im System zu erkennen und eine alternative Route zu berechnen. Während dieser Verzögerung verstreicht wertvolle Rechenzeit der teuren Chips ungenutzt. Das neue Protokoll Multipath Reliable Connection (MRC) setzt genau an dieser Schwachstelle an, indem es die Fehlererkennung direkt an die sendenden Endpunkte verlagert.

Datenpakete auf hunderten Pfaden verteilt

Anstatt einen Datenstrom über einen fest definierten Weg zu leiten, streut MRC die Pakete über unzählige parallele Routen gleichzeitig durch das Rechenzentrum. Entsteht auf einer bestimmten Strecke ein Engpass, registriert das System dies umgehend und stoppt die Nutzung dieses speziellen Pfades. Solche essenziellen Korrekturen erfolgen innerhalb von Mikrosekunden, ohne dass das restliche Netzwerk davon beeinträchtigt wird.

Um diese enorme Effizienz im Betrieb sicherzustellen, greifen die Entwickler auf einen weiteren technischen Kniff zurück. Führt eine lokale Überlastung in einem Switch zu einem drohenden Paketverlust, wirft die Hardware lediglich die eigentlichen Nutzdaten ab. Der winzige Paketkopf wandert jedoch unbehelligt weiter zum Empfänger, woraufhin dieser direkt eine erneute Übertragung anfordert. Unklarheiten über den Verbleib von Datenpaketen treten somit gar nicht erst auf.

Quelle: OpenAI

Statische Routen statt fehleranfälliger Software

Gleichzeitig verzichtet die neue Architektur vollständig auf dynamisches Routing innerhalb der Switches. Absender nutzen stattdessen IPv6 Segment Routing, wodurch sie den exakten Weg jedes Datenpakets bereits vorab festlegen. Netzwerk-Switches treffen dadurch keine eigenen, fehleranfälligen Entscheidungen mehr. Sie leiten die eintreffenden Daten lediglich stur an die nächste programmierte Station weiter.

Diese strukturelle Vereinfachung erlaubt den Bau von sehr flachen Hierarchien im Rechenzentrum. Anstelle teurer Einzelverbindungen kommen viele parallele Ebenen zum Einsatz, was die benötigten Schichten von ehemals vier auf nur noch zwei Stufen reduziert. Auf diese Weise lassen sich Anlagen mit über 131.000 GPUs miteinander vernetzen. Ein positiver Nebeneffekt dieser schlanken Bauweise ist ein deutlich geringerer Stromverbrauch der gesamten Netzwerkinfrastruktur.

Ein offener Standard für die Industrie

Ein derart tiefgreifender Umbau der Infrastruktur erfordert eine breite technische Basis. Die Spezifikation entstand daher in enger Kooperation mit namhaften Hardware-Herstellern wie AMD, Broadcom, Intel und NVIDIA. In den modernsten Supercomputern steuert die Technologie bereits heute erfolgreich das Training aktueller Sprachmodelle und fängt Hardwareausfälle im laufenden Betrieb unbemerkt ab.

Um einer drohenden Fragmentierung des Marktes vorzubeugen, steht der gesamte Code als Open-Source-Standard über das Open Compute Project zur Verfügung. Betreiber von Rechenzentren können die Technik lizenzfrei implementieren und weiterentwickeln. Der Fokus liegt künftig darauf, das auf Ethernet basierende Protokoll kontinuierlich an kommende Hardware-Generationen anzupassen.