Gemini-API: Neue Tarife Flex und Priority senken Kosten

Entwickler steuern künftig Latenz und Zuverlässigkeit über eine einheitliche Schnittstelle. Der Flex-Tarif bringt 50 Prozent Ersparnis.

Andreas Becker02.04.26 Nano Banana

Kurzfassung Quellen

Entwickler können bei der Gemini-API künftig zwischen dem Standard-Tarif und zwei neuen Service-Stufen zur Leistungssteuerung wählen.
Der Flex-Tarif halbiert die Kosten für Hintergrundaufgaben, nutzt jedoch einen Best-Effort-Ansatz mit Latenzzeiten von bis zu 15 Minuten.
Für zeitkritische Anwendungen sichert die Priority-Inference höchste Verfügbarkeit im Sekundenbereich, kostet aber 75 bis 100 Prozent mehr als der Standard.
Der Standard-Tarif bleibt die Grundeinstellung; Entwickler aktivieren die neuen Stufen unkompliziert über einen Parameter in bestehenden API-Endpunkten.

Entwickler steuern bei der Gemini-API ab sofort Latenz und Zuverlässigkeit über zwei zusätzliche Service-Stufen. Neben dem etablierten Standard-Tarif, der weiterhin als Grundeinstellung fungiert, senkt Flex die Kosten für Hintergrundaufgaben um 50 Prozent. Die Priority-Stufe garantiert hingegen höchste Ausfallsicherheit für zeitkritische Anwendungen.

Kostensenkung durch Best-Effort

Mit der neuen Flex-Inference zielen die Anbieter der Modelle auf Aufgaben ab, die keine sofortige Antwort erfordern. Dazu zählen etwa Aktualisierungen von Kundendatenbanken oder umfangreiche textbasierte Auswertungen im Hintergrund. Bei solchen Prozessen verarbeiten die Systeme komplexe Prompts, ohne dass Nutzer direkt auf das Ergebnis warten. Dieser Tarif kostet exakt 50 Prozent weniger als der reguläre Standardpreis.

Nutzer tauschen diese finanzielle Ersparnis gegen eine geringere Priorisierung auf den Servern ein. Das System nutzt hier einen Best-Effort-Ansatz und unterbricht Prozesse bei hoher Auslastung temporär. Die Latenzzeiten liegen als Zielwert zwischen einer und 15 Minuten. Im Gegensatz zur asynchronen Batch-Verarbeitung laufen die Anfragen jedoch weiterhin synchron ab, was die technische Architektur der Software vereinfacht.

Quelle: Google

Höchste Verfügbarkeit für kritische Systeme

Für Produktionsumgebungen und nutzerorientierte Apps steht ab sofort die Priority-Inference zur Auswahl. Diese Premium-Stufe bewahrt Anfragen zuverlässig vor Verzögerungen und unterbricht aktive Prozesse nicht. Interaktive Live-Support-Bots oder Echtzeit-Filter profitieren von einer konstant niedrigen Latenz im Sekundenbereich.

Dieser Service hat seinen Preis: Die Priority-Stufe kostet zwischen 75 und 100 Prozent mehr als der reguläre Standard-Tarif. Überschreiten Projekte ihr gebuchtes Kontingent in diesem teureren Segment, greift ein intelligenter Fallback-Mechanismus. Das System stuft überzählige Anfragen automatisch auf den Standard-Tarif ab, anstatt sie mit einer Fehlermeldung komplett abzubrechen.

Technische Umsetzung und Kontrolle

Beide neuen Tarife integrieren sich nahtlos in die bestehenden Endpunkte der Schnittstelle, wie die GenerateContent-API. Ohne eine explizite Änderung im Code verarbeitet das System alle Anfragen weiterhin über den Standard-Tarif. Entwickler wählen die neuen Leistungsstufen beim Aufruf über den einfachen Parameter service_tier gezielt aus.

Using the Flex tier

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Summarize this massive transcript...",
    config={"service_tier": "flex"},
)

Using the Priority tier

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Triage this incoming security alert immediately.",
    config={"service_tier": "priority"},
)

Check which tier

print(response.sdk_http_response.headers.get("x-gemini-service-tier"))

Die Antwort des Servers zeigt anschließend transparent im HTTP-Header an, welcher Tarif die Anfrage tatsächlich verarbeitet hat. Ein Wechsel zwischen den Optionen erfordert dadurch keine komplexe Umprogrammierung des Quellcodes. Die Nutzung der Priority-Inference setzt zwingend ein kostenpflichtiges Projekt der Stufe 2 oder 3 voraus.