Nvidia Vera Rubin: Warum diese Architektur die KI-Welt radikal verändert

Zehnfach günstigere Inferenzkosten und fünffache Leistung. Nvidia setzt auf der CES 2026 völlig neue Maßstäbe für Rechenzentren.

Andreas Becker06.01.26 Nvidia

Kurzfassung Quellen

Nvidia hat auf der CES 2026 die neue Vera-Rubin-Plattform als direkten Nachfolger der Blackwell-Architektur vorgestellt.
Die neue Hardware verspricht eine fünffache Steigerung der Inferenzleistung bei gleichzeitig um das Zehnfache sinkenden Betriebskosten pro Token.
Technologische Neuerungen wie HBM4-Speicher und NVLink 6 sollen die Effizienz beim Training und Betrieb großer Sprachmodelle massiv steigern.
Die Auslieferung der ersten Vera-Rubin-Systeme an Rechenzentren ist für die zweite Jahreshälfte 2026 geplant.

Nvidia-Chef Jensen Huang hat auf der CES 2026 die neue Vera-Rubin-Plattform offiziell vorgestellt. Die Architektur verspricht eine fünffache Leistungssteigerung bei der Inferenz und senkt die Betriebskosten für große Sprachmodelle gleichzeitig um das Zehnfache.

Der Nachfolger der Blackwell-Serie

Nvidia beschleunigt den eigenen Entwicklungszyklus massiv und präsentiert mit Vera Rubin bereits den Nachfolger der Blackwell-Generation. Während der Keynote in Las Vegas betonte Huang, dass sich die neuen Chips bereits in der vollen Produktion befinden. Diese Geschwindigkeit unterstreicht den enormen Konkurrenzdruck im Sektor für spezialisierte Hardware.

Die neue Plattform bildet das Rückgrat für künftige KI-Fabriken und Forschungszentren weltweit. Experten hatten zwar mit einer Ankündigung gerechnet, doch der frühe Produktionsstart überrascht die Branche. Damit festigt das Unternehmen seinen Vorsprung gegenüber Mitbewerbern, die noch mit dem Anschluss an die Vorgängergeneration kämpfen.

Drastische Effizienzsprünge bei der Inferenz

Ein Kernaspekt der neuen Architektur ist die enorme Steigerung der Effizienz bei der Inferenz. Unter Inferenz versteht man das Ausführen eines bereits trainierten KI-Modells, um Antworten auf Nutzeranfragen zu generieren. Hier ermöglicht Vera Rubin eine zehnfache Kostensenkung pro verarbeitetem Token, was den Betrieb komplexer Modelle deutlich wirtschaftlicher macht.

Parallel dazu steigt die reine Rechenleistung für das Training neuer Modelle um das Dreieinhalbfache. Das System ist speziell auf sogenannte Agentic AI und Mixture-of-Experts-Modelle (MoE) optimiert. Bei diesen Modellen wird nur ein Teil des Netzwerks für eine spezifische Aufgabe aktiviert, was Ressourcen schont.

Technische Komponenten und HBM4-Speicher

Das Herzstück der Plattform bildet der Vera-Rubin-Superchip, der erstmals die neue Vera-Zentraleinheit (CPU) mit der Rubin-Grafikeinheit (GPU) kombiniert. Nvidia setzt dabei konsequent auf den neuen HBM4-Hochleistungsspeicher, um die notwendigen Datenmengen schnell genug verarbeiten zu können. Die Vernetzung erfolgt über den Standard NVLink 6, der die Bandbreite zwischen den Komponenten verdoppelt.

Prozessor: Vera CPU mit 88 maßgeschneiderten Olympus-Kernen.
Grafikbeschleuniger: Rubin GPU mit HBM4-Speichertechnologie.
Vernetzung: NVLink 6 mit bis zu 3,6 Terabyte pro Sekunde pro GPU.
Bauweise: NVL72-Rack mit 72 GPUs und 36 CPUs, komplett wassergekühlt.

Quelle: Nvidia

Verfügbarkeit und strategische Bedeutung

Erste Systeme der Vera-Rubin-Reihe sollen in der zweiten Jahreshälfte 2026 an große Rechenzentren ausgeliefert werden. Durch die drastisch sinkenden Kosten pro Million Token könnte dies eine neue Welle an KI-Anwendungen auslösen, die bisher als zu teuer galten. Besonders für Unternehmen, die tiefgreifende Reasoning-Modelle einsetzen, stellt die Hardware einen Wendepunkt dar.

Die Plattform ist zudem darauf ausgelegt, die Sicherheit in Rechenzentren durch eine durchgehende Verschlüsselung auf Hardwareebene zu erhöhen. Nvidia positioniert sich damit nicht mehr nur als Chip-Hersteller, sondern als Anbieter kompletter, hocheffizienter Recheninfrastrukturen. Die Konkurrenz wird sich nun am neuen Effizienz-Standard messen lassen müssen.