Ein trojanisches Google Pferd

Google legt uns mit Gemini 3.5 Flash rein

Statt Effizienz gibt es massiven Token-Verbrauch im Hintergrund. Wir decken auf, wie teuer das Modell im Alltag wirklich ist.

Andreas Becker GPT-Images-2.0
Ein trojanisches Google Pferd

Google präsentiert Gemini 3.5 Flash als das neue, schnelle Mittelklasse-Modell. In der Praxis entpuppt sich die Architektur jedoch als Kostenfalle für Nutzer. Das KI-Modell übersteigt durch einen exzessiven Token-Verbrauch sogar die Ausgaben für das Flaggschiff Gemini 3.1 Pro.

Versteckte Kosten durch Denkprozesse

Tests von mir mit identischen Prompts und der Einstellung »low« für das Reasoning zeigen ein unerwartetes Verhalten. Gemini 3.5 Flash greift bei nahezu jeder Anfrage auf umfangreiche interne Denkprozesse zurück. Dabei generiert das KI-Modell Tausende sogenannte Thinking-Tokens, die das Kontextfenster füllen und letztlich auf der Rechnung landen.

Gemini 3.1 Pro verzichtet im direkten Vergleich bei vielen meiner Aufgaben komplett auf diesen Zwischenschritt oder verbraucht deutlich weniger. Dies führt dazu, dass die vermeintlich günstige Flash-Variante für dieselbe Aufgabe am Ende deutlich mehr Output liefert und natürlich auch berechnet.

Messungen des Artificial Analysis Index bestätigen dieses Bild. Der Standard-Parcours kostet bei Gemini 3.5 Flash rund 1.552 US-Dollar, während das Pro-Modell die gleichen Aufgaben für 892 US-Dollar abschließt. Der Hauptgrund für diese Differenz liegt in den Reasoning-Kosten, die bei der Flash-Architektur unverhältnismäßig hoch ausfallen.

Quelle: https://artificialanalysis.ai/

Auf dem Bild sind zwei interessante Dinge zu sehen. Der grüne Bereich zeigt, dass Gemini Flash fast genauso teuer ist wie die Pro-Variante. Der hellgrüne Bereich zeigt die »Thinking«-Kosten und macht damit deutlich, dass Flash deutlich länger und intensiver nachdenkt.

Preispolitik rückt die Modelle zusammen

Frühere Generationen wiesen einen deutlichen Preisabstand auf. Gemini 2.5 Flash kostete mit 2,50 US-Dollar nur einen Bruchteil des 15 US-Dollar teuren Pro-Modells. Auch Gemini 3 Flash ist nur minimal auf 3 US-Dollar angestiegen. Dieser Abstand verringert sich nun spürbar.

Für das aktuelle Gemini 3.1 Pro ruft Google 12 US-Dollar auf, bei extrem großen Kontextfenstern über 200.000 Token sind es 18 US-Dollar. Gemini 3.5 Flash schlägt mittlerweile mit 9 US-Dollar zu Buche. Damit kostet es mehr als dreimal so viel wie ältere Flash-Versionen.

Kombiniert man nun den gestiegenen Grundpreis mit dem ausufernden Token-Verbrauch für das Nachdenken, kippt die Wirtschaftlichkeit. Das für Effizienz ausgelegte KI-Modell unterbietet den großen Bruder im Alltag schlicht nicht mehr. Ganz im Gegenteil: Bei mir persönlich ist es bei identischen Workflows über die API immer teurer!

Anzeige

Leistungssprung mit Lücken

Angesichts der hohen Betriebskosten rückt die Leistungsfähigkeit in den Fokus. Gemini 3.5 Flash muss nicht nur besser sein als sein Vorgänger, sondern auch deutlich besser als Gemini 3.1 Pro.

Im übergreifenden Intelligence Index liegt aber Gemini 3.5 Flash weiterhin knapp zwei Punkte hinter Gemini 3.1 Pro. Die Testergebnisse zeigen zudem, dass die neue Architektur sich weniger strikt an detaillierte Systemvorgaben hält.

Quelle: https://artificialanalysis.ai/

Eine bemerkenswerte Stärke zeigt Gemini 3.5 Flash hingegen im Agentic Index. Hier deklassiert es das Pro-Modell um über zehn Punkte und erreicht mit einem Wert von 70,3 nahezu das Niveau von Claude Opus 4.7. Wer KI-Modelle für autonome Aufgabenketten nutzt, findet hier einen klaren Mehrwert.

Quelle: https://artificialanalysis.ai/

Auch bei der reinen Ausgabegeschwindigkeit dominiert die Flash-Architektur. Mit 219 Token pro Sekunde arbeitet es fast doppelt so schnell wie Gemini 3.1 Pro. Dieser Vorteil verpufft jedoch in der Praxis, wenn das KI-Modell für die Lösung einer Aufgabe doppelt so viele Token benötigt.

Trotzdem können hier beiden Gemini Modelle grundsätzlich überzeugen.

Quelle: https://artificialanalysis.ai/

Das Problem wird noch größer

Die gestiegenen Kosten treffen Nutzer derzeit besonders hart, da Google die Strukturen seiner Abonnements umstellt. Ähnlich wie beim Konkurrenten Claude basieren die Limits nicht mehr auf pauschalen Freikontingenten, sondern auf der reellen Rechenleistung und den tatsächlichen API-Kosten. Jeder generierte Token und jeder intensive Denkprozess verringern das verfügbare Budget nun unmittelbar.

Nutzer müssen ihre Workflows daher präzise evaluieren, um die Kontingente nicht vorzeitig zu erschöpfen. Es gilt abzuwägen, für welche spezifischen Aufgaben große KI-Modelle oder der ressourcenhungrige »Thinking«-Modus zwingend erforderlich sind. Für simple Textarbeiten oder grundlegende Unterhaltungen empfiehlt sich stattdessen ein rechtzeitiger Wechsel auf sparsamere Varianten wie Flash Light.

Und zum Schluss noch eine Vermutung. Meiner Meinung nach schreit der gesamte Artikel danach, dass wir im nächsten Monat ein starkes Gemini 3.5 Pro erleben werden, das aber vor allem auch deutlich im Preis steigen wird. Claude Opus 4.7 lässt grüßen...

Anzeige

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.