Ein OpenAI Chip

Neue Technik macht ChatGPT Betrieb plötzlich extrem günstig

OpenAI spart durch einen internen Durchbruch Millionen ein. Entwickler und Nutzer hoffen jetzt auf sinkende Preise.

Andreas Becker GPT-Images-2.0
Ein OpenAI Chip

OpenAI hat die Inferenzkosten seiner bestehenden Sprachmodelle offenbar um mehr als die Hälfte gesenkt. Wie aus internen Berichten von Ingenieuren hervorgeht, lief ChatGPT für unangemeldete Besucher zeitweise auf nur noch wenigen hundert Nvidia-GPUs.

Eingriffe in die Berechnungsabläufe

Auf welche technische Methode das Team dabei setzt, nannten die Ingenieure bei der internen Verkündung des Erfolgs nicht im Detail. Beobachter gehen von etablierten Verfahren wie Quantisierung, Key-Value-Caching oder Batching aus. Zudem liegt nahe, dass einfache Nutzeranfragen künftig routinemäßig an kleinere, günstigere Modelle delegiert werden.

Solche Kniffe sind jedoch riskant. Eine Quantisierung reduziert die Präzision der Modellgewichte, was Textausgaben ungenauer machen kann. Wenn das System komplexe Aufgaben fälschlich als simpel einstuft und an zu kleine Modelle übergibt, bricht die Antwortqualität ein. Wird zudem der Kontext zu stark komprimiert, übersehen die Modelle in langen Chatverläufen womöglich wichtige Sicherheitsvorgaben.

Anzeige

Entlastung für Entwickler, Schock für den Aktienmarkt

Für OpenAI lindert der geringere Rechenaufwand vor allem den Kostendruck. Im ersten Quartal lag die Bruttomarge im API-Geschäft bei 39 Prozent. Bis zum Jahresende muss das Unternehmen 52 Prozent erreichen.

Der neu gewonnene Puffer bietet OpenAI Handlungsspielraum. Das Unternehmen könnte die Preise für API-Zugriffe senken oder die strengen Nutzungslimits für ChatGPT-Abonnenten lockern. Davon profitieren auch europäische Unternehmen, für die der produktive Einsatz großer Sprachmodelle dadurch schlicht billiger wird.

Gleichzeitig macht eine effizientere Architektur unabhängiger von knapper Hardware. Wie akut der Mangel an Rechenleistung in der Branche ist, zeigte zuletzt Google, als es den Zugang zu Gemini limitieren musste.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.