Google bringt extrem schnelles und günstiges KI-Modell

Die neue KI-Variante verarbeitet 363 Tokens pro Sekunde und positioniert sich als direkte Konkurrenz zu GPT-5 mini und Claude 4.5 Haiku.

Andreas Becker03.03.26 Nano Banana

Kurzfassung Quellen

Google hat die Preview-Version des neuen KI-Modells Gemini 3.1 Flash-Lite über die hauseigene API für Entwickler freigegeben.
Das Modell zeichnet sich durch eine sehr hohe Ausgabegeschwindigkeit von 363 Tokens pro Sekunde aus und lässt damit Konkurrenten wie GPT-5 mini weit hinter sich.
Trotz niedriger Kosten von 1,50 US-Dollar pro Million Output-Tokens überzeugt die KI in zahlreichen Benchmarks, insbesondere bei der Faktenabfrage und der Videoverarbeitung.

Google hat das KI-Modell Gemini 3.1 Flash-Lite in einer ersten Preview-Version über die eigene API heraus gebracht. Die neue Modellvariante zielt auf Entwickler ab, die sehr schnelle Antwortzeiten bei gleichzeitig niedrigen Betriebskosten für ihre Anwendungen benötigen.

Twitter Beitrag - Cookies links unten aktivieren.

Smarter. Faster. Gemini 3.1 Flash-Lite is here⚡

The model offers uncompromising speed & intelligence at scale by focusing on:

— Cost-efficiency: Priced at just $0.25/1M input and $1.50/1M output tokens, it gets work done faster at a fraction of the cost of larger models,… pic.twitter.com/icrk62FTJ3
— Google AI (@GoogleAI) March 3, 2026

Fokus auf Tempo und Effizienz

Die Flash-Lite-Serie ist architektonisch auf maximale Geschwindigkeit optimiert. Auch die neueste Version erreicht laut den veröffentlichten Daten eine sehr hohe Ausgabegeschwindigkeit von 363 Tokens pro Sekunde. Damit bleibt das Modell fast exakt auf dem hohen Niveau des direkten Vorgängers Gemini 2.5 Flash-Lite.

Im direkten Vergleich mit der aktuellen Konkurrenz zeigt sich ein deutlicher Abstand. Das Modell GPT-5 mini von OpenAI verarbeitet lediglich 71 Tokens pro Sekunde, während Claude 4.5 Haiku von Anthropic auf 108 Tokens kommt. Selbst Grok 4.1 Fast von xAI erreicht mit 145 Tokens pro Sekunde nicht einmal die Hälfte der Google-Geschwindigkeit.

Quelle: Google

Diese hohe Verarbeitungsleistung verknüpft Google mit einer angepassten Preisstruktur. Für eine Million Input-Tokens berechnet das Unternehmen 0,25 US-Dollar. Bei den generierten Output-Tokens fallen 1,50 US-Dollar pro Million an.

Damit liegt das neue Modell beim Input preislich genau auf dem Niveau von GPT-5 mini, ist aber beim Output um 0,50 US-Dollar günstiger. Im Vergleich zu Claude 4.5 Haiku ist der Preisvorteil sehr deutlich. Der ältere Vorgänger Gemini 2.5 Flash-Lite bleibt mit 0,10 beziehungsweise 0,40 US-Dollar jedoch weiterhin die günstigste Option im Google-Portfolio.

Starke Ergebnisse im Faktencheck

Neben der reinen Geschwindigkeit liefert Gemini 3.1 Flash-Lite auch inhaltlich solide Ergebnisse in etablierten Benchmarks. Besonders bei der reinen Faktenabfrage punktet das System.

In der Kategorie "SimpleQA Verified", die hartes parametrisches Wissen testet, erreicht das Modell 43,3 Prozent. GPT-5 mini fällt hier mit 9,5 Prozent weit ab.

Auch bei der Analyse komplexer wissenschaftlicher Daten im Test "GPQA Diamond" führt das Google-Modell. Mit 86,9 Prozent liegt es klar vor dem Konkurrenten von OpenAI.

Quelle: Google

Multimodale Fähigkeiten und Schwächen

Ein weiterer Schwerpunkt liegt auf den multimodalen Fähigkeiten, also der kombinierten Verarbeitung von Text, Bild und Video. Im Test "Video-MMMU" zur Wissensaneignung aus Videomaterial erzielt Gemini 3.1 Flash-Lite einen starken Wert von 84,8 Prozent.

Bei der Programmierung von Code zeigt das Modell jedoch kleine Schwächen. Im "LiveCodeBench" muss sich die Google-KI mit 72,0 Prozent dem Modell GPT-5 mini geschlagen geben, das hier stärkere 80,4 Prozent erreicht.

Bei der Verarbeitung von sehr langen Texten ("MRCR v2 128k") schneidet die neue Version mit durchschnittlich 60,1 Prozent wiederum deutlich besser ab als die Konkurrenz. Entwickler können die Preview-Version ab sofort in ihre eigenen Projekte integrieren und testen.