Google bringt extrem schnelles und günstiges KI-Modell
Die neue KI-Variante verarbeitet 363 Tokens pro Sekunde und positioniert sich als direkte Konkurrenz zu GPT-5 mini und Claude 4.5 Haiku.

Google hat das KI-Modell Gemini 3.1 Flash-Lite in einer ersten Preview-Version über die eigene API heraus gebracht. Die neue Modellvariante zielt auf Entwickler ab, die sehr schnelle Antwortzeiten bei gleichzeitig niedrigen Betriebskosten für ihre Anwendungen benötigen.
Twitter Beitrag - Cookies links unten aktivieren.
Smarter. Faster. Gemini 3.1 Flash-Lite is here⚡
— Google AI (@GoogleAI) March 3, 2026
The model offers uncompromising speed & intelligence at scale by focusing on:
— Cost-efficiency: Priced at just $0.25/1M input and $1.50/1M output tokens, it gets work done faster at a fraction of the cost of larger models,… pic.twitter.com/icrk62FTJ3
Fokus auf Tempo und Effizienz
Die Flash-Lite-Serie ist architektonisch auf maximale Geschwindigkeit optimiert. Auch die neueste Version erreicht laut den veröffentlichten Daten eine sehr hohe Ausgabegeschwindigkeit von 363 Tokens pro Sekunde. Damit bleibt das Modell fast exakt auf dem hohen Niveau des direkten Vorgängers Gemini 2.5 Flash-Lite.
Im direkten Vergleich mit der aktuellen Konkurrenz zeigt sich ein deutlicher Abstand. Das Modell GPT-5 mini von OpenAI verarbeitet lediglich 71 Tokens pro Sekunde, während Claude 4.5 Haiku von Anthropic auf 108 Tokens kommt. Selbst Grok 4.1 Fast von xAI erreicht mit 145 Tokens pro Sekunde nicht einmal die Hälfte der Google-Geschwindigkeit.
Quelle: Google
Diese hohe Verarbeitungsleistung verknüpft Google mit einer angepassten Preisstruktur. Für eine Million Input-Tokens berechnet das Unternehmen 0,25 US-Dollar. Bei den generierten Output-Tokens fallen 1,50 US-Dollar pro Million an.
Damit liegt das neue Modell beim Input preislich genau auf dem Niveau von GPT-5 mini, ist aber beim Output um 0,50 US-Dollar günstiger. Im Vergleich zu Claude 4.5 Haiku ist der Preisvorteil sehr deutlich. Der ältere Vorgänger Gemini 2.5 Flash-Lite bleibt mit 0,10 beziehungsweise 0,40 US-Dollar jedoch weiterhin die günstigste Option im Google-Portfolio.
Anzeige
Starke Ergebnisse im Faktencheck
Neben der reinen Geschwindigkeit liefert Gemini 3.1 Flash-Lite auch inhaltlich solide Ergebnisse in etablierten Benchmarks. Besonders bei der reinen Faktenabfrage punktet das System.
In der Kategorie "SimpleQA Verified", die hartes parametrisches Wissen testet, erreicht das Modell 43,3 Prozent. GPT-5 mini fällt hier mit 9,5 Prozent weit ab.
Auch bei der Analyse komplexer wissenschaftlicher Daten im Test "GPQA Diamond" führt das Google-Modell. Mit 86,9 Prozent liegt es klar vor dem Konkurrenten von OpenAI.
Quelle: Google
Multimodale Fähigkeiten und Schwächen
Ein weiterer Schwerpunkt liegt auf den multimodalen Fähigkeiten, also der kombinierten Verarbeitung von Text, Bild und Video. Im Test "Video-MMMU" zur Wissensaneignung aus Videomaterial erzielt Gemini 3.1 Flash-Lite einen starken Wert von 84,8 Prozent.
Bei der Programmierung von Code zeigt das Modell jedoch kleine Schwächen. Im "LiveCodeBench" muss sich die Google-KI mit 72,0 Prozent dem Modell GPT-5 mini geschlagen geben, das hier stärkere 80,4 Prozent erreicht.
Bei der Verarbeitung von sehr langen Texten ("MRCR v2 128k") schneidet die neue Version mit durchschnittlich 60,1 Prozent wiederum deutlich besser ab als die Konkurrenz. Entwickler können die Preview-Version ab sofort in ihre eigenen Projekte integrieren und testen.

