---
title: Neue Technik macht ChatGPT Betrieb plötzlich extrem günstig
description: OpenAI spart durch einen internen Durchbruch Millionen ein. Entwickler und Nutzer hoffen jetzt auf sinkende Preise.
author: Andreas Becker
url: https://www.all-ai.de/news/news26/openai-inferenzkosten-halbiert
---

![Ein OpenAI Chip](https://www.all-ai.de/images/2-news/7-26/openai-chip-inferenz-1600.webp)

# Neue Technik macht ChatGPT Betrieb plötzlich extrem günstig

OpenAI spart durch einen internen Durchbruch Millionen ein. Entwickler und Nutzer hoffen jetzt auf sinkende Preise.

[Andreas Becker](https://www.all-ai.de/charaktere)·02.07.26

GPT-Images-2.0

![Ein OpenAI Chip](https://www.all-ai.de/images/2-news/7-26/openai-chip-inferenz-1600.webp#joomlaImage://local-images/2-news/7-26/openai-chip-inferenz-1600.webp?width=1600&height=900)

Kurzfassung
 ▾

Quellen
 ▾

- OpenAI hat durch interne Optimierungen die Betriebskosten für bestehende KI-Modelle um über 50 Prozent gesenkt.
- Zeitweise benötigte ChatGPT für unangemeldete Nutzer nur noch wenige hundert Nvidia-GPUs, was einen enormen Effizienzsprung darstellt.
- Die Kosteneinsparungen helfen dem Unternehmen, sein Margenziel von 52 Prozent bis Jahresende zu erreichen und lindern den akuten Hardware-Mangel.
- Als direkte Reaktion auf den schrumpfenden Hardware-Bedarf von OpenAI fielen die Kurse amerikanischer Halbleiter-Aktien deutlich.

- [The Information - OpenAI Discovers New Way to Cut Inference Costs in Half](https://www.theinformation.com/newsletters/ai-agenda/openai-discovers-new-way-cut-inference-costs-half)
- [The Information auf X - OpenAI engineers recently found optimizations that more than halved the cost of running some existing models](https://x.com/theinformation/status/2072032493721563262)

OpenAI hat die Inferenzkosten seiner bestehenden Sprachmodelle offenbar um mehr als die Hälfte gesenkt. Wie aus internen Berichten von Ingenieuren hervorgeht, lief ChatGPT für unangemeldete Besucher zeitweise auf nur noch wenigen hundert Nvidia-GPUs.

#### Eingriffe in die Berechnungsabläufe

Auf welche technische Methode das Team dabei setzt, nannten die Ingenieure bei der internen Verkündung des Erfolgs nicht im Detail. Beobachter gehen von etablierten Verfahren wie Quantisierung, Key-Value-Caching oder Batching aus. Zudem liegt nahe, dass einfache Nutzeranfragen künftig routinemäßig an kleinere, günstigere Modelle delegiert werden.

Solche Kniffe sind jedoch riskant. Eine Quantisierung reduziert die Präzision der Modellgewichte, was Textausgaben ungenauer machen kann. Wenn das System komplexe Aufgaben fälschlich als simpel einstuft und an zu kleine Modelle übergibt, bricht die Antwortqualität ein. Wird zudem der Kontext zu stark komprimiert, übersehen die Modelle in langen Chatverläufen womöglich wichtige Sicherheitsvorgaben.

###### Anzeige

#### Entlastung für Entwickler, Schock für den Aktienmarkt

Für OpenAI lindert der geringere Rechenaufwand vor allem den Kostendruck. Im ersten Quartal lag die Bruttomarge im API-Geschäft bei 39 Prozent. Bis zum Jahresende muss das Unternehmen 52 Prozent erreichen.

Der neu gewonnene Puffer bietet OpenAI Handlungsspielraum. Das Unternehmen könnte die Preise für API-Zugriffe senken oder die strengen Nutzungslimits für ChatGPT-Abonnenten lockern. Davon profitieren auch europäische Unternehmen, für die der produktive Einsatz großer Sprachmodelle dadurch schlicht billiger wird.

Gleichzeitig macht eine effizientere Architektur unabhängiger von knapper Hardware. Wie akut der Mangel an Rechenleistung in der Branche ist, zeigte zuletzt Google, als es den Zugang zu Gemini limitieren musste.