Gemini-API: Neue Tarife Flex und Priority senken Kosten
Entwickler steuern künftig Latenz und Zuverlässigkeit über eine einheitliche Schnittstelle. Der Flex-Tarif bringt 50 Prozent Ersparnis.

Entwickler steuern bei der Gemini-API ab sofort Latenz und Zuverlässigkeit über zwei zusätzliche Service-Stufen. Neben dem etablierten Standard-Tarif, der weiterhin als Grundeinstellung fungiert, senkt Flex die Kosten für Hintergrundaufgaben um 50 Prozent. Die Priority-Stufe garantiert hingegen höchste Ausfallsicherheit für zeitkritische Anwendungen.
Kostensenkung durch Best-Effort
Mit der neuen Flex-Inference zielen die Anbieter der Modelle auf Aufgaben ab, die keine sofortige Antwort erfordern. Dazu zählen etwa Aktualisierungen von Kundendatenbanken oder umfangreiche textbasierte Auswertungen im Hintergrund. Bei solchen Prozessen verarbeiten die Systeme komplexe Prompts, ohne dass Nutzer direkt auf das Ergebnis warten. Dieser Tarif kostet exakt 50 Prozent weniger als der reguläre Standardpreis.
Nutzer tauschen diese finanzielle Ersparnis gegen eine geringere Priorisierung auf den Servern ein. Das System nutzt hier einen Best-Effort-Ansatz und unterbricht Prozesse bei hoher Auslastung temporär. Die Latenzzeiten liegen als Zielwert zwischen einer und 15 Minuten. Im Gegensatz zur asynchronen Batch-Verarbeitung laufen die Anfragen jedoch weiterhin synchron ab, was die technische Architektur der Software vereinfacht.
Quelle: Google
Höchste Verfügbarkeit für kritische Systeme
Für Produktionsumgebungen und nutzerorientierte Apps steht ab sofort die Priority-Inference zur Auswahl. Diese Premium-Stufe bewahrt Anfragen zuverlässig vor Verzögerungen und unterbricht aktive Prozesse nicht. Interaktive Live-Support-Bots oder Echtzeit-Filter profitieren von einer konstant niedrigen Latenz im Sekundenbereich.
Dieser Service hat seinen Preis: Die Priority-Stufe kostet zwischen 75 und 100 Prozent mehr als der reguläre Standard-Tarif. Überschreiten Projekte ihr gebuchtes Kontingent in diesem teureren Segment, greift ein intelligenter Fallback-Mechanismus. Das System stuft überzählige Anfragen automatisch auf den Standard-Tarif ab, anstatt sie mit einer Fehlermeldung komplett abzubrechen.
Anzeige
Technische Umsetzung und Kontrolle
Beide neuen Tarife integrieren sich nahtlos in die bestehenden Endpunkte der Schnittstelle, wie die GenerateContent-API. Ohne eine explizite Änderung im Code verarbeitet das System alle Anfragen weiterhin über den Standard-Tarif. Entwickler wählen die neuen Leistungsstufen beim Aufruf über den einfachen Parameter service_tier gezielt aus.
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Summarize this massive transcript...",
config={"service_tier": "flex"},
)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this incoming security alert immediately.",
config={"service_tier": "priority"},
)
print(response.sdk_http_response.headers.get("x-gemini-service-tier"))
Die Antwort des Servers zeigt anschließend transparent im HTTP-Header an, welcher Tarif die Anfrage tatsächlich verarbeitet hat. Ein Wechsel zwischen den Optionen erfordert dadurch keine komplexe Umprogrammierung des Quellcodes. Die Nutzung der Priority-Inference setzt zwingend ein kostenpflichtiges Projekt der Stufe 2 oder 3 voraus.
