Google startet «Computer Use» mit Gemini 3.5 Flash
Das KI-Modell bedient jetzt eigenständig Browser und Desktop. Entwickler bauen damit mächtige Automatisierungen.

Google DeepMind hat die Funktion zur autonomen PC-Steuerung nativ in Gemini 3.5 Flash eingebaut. Entwickler können die API nun nutzen, um KI-Agenten zu bauen, die bildschirmübergreifend sehen, logisch schlussfolgern und selbstständig Aktionen ausführen. Zuvor war dieses Feature nur über eine separate Version von Gemini 2.5 zugänglich.
Agenten für den Desktop-Alltag
Gemini 3.5 Flash beherrscht bereits Function Calling und greift auf Google Search sowie Maps Grounding zu. Durch die neue Computer-Use-Fähigkeit interagiert es direkt mit Browser-, Desktop- und mobilen Umgebungen, wodurch Google gezielt langwierige Automatisierungsaufgaben adressiert. Konkrete Einsatzgebiete sind kontinuierliche Softwaretests und Wissensarbeit über verschiedene professionelle Anwendungen hinweg.
Im OSWorld-Verified-Benchmark erreicht Gemini 3.5 Flash 78,4 Punkte und schließt damit zu Sonnet 4.6 auf, während der Vorgänger Gemini 3 Flash nur 65,1 Punkte erzielte.
Quelle: Google
Schutzmaßnahmen gegen Prompt-Injections
Autonome Agenten in Live-Umgebungen bieten ein hohes Risiko für Eingriffe von außen. Google hat Gemini 3.5 Flash deshalb mit gezieltem Adversarial Training gegen Prompt-Injections abgehärtet. Unternehmen erhalten zusätzlich zwei optionale Sicherheitsmechanismen, die bei sensiblen oder unumkehrbaren Aktionen zwingend eine Bestätigung des Nutzers anfordern.
Erkennt es eine indirekte Prompt-Injection, bricht es die laufende Aufgabe automatisch ab. Google rät Entwicklern im Sinne eines »Defense-in-Depth«-Ansatzes, diese Funktionen mit sicherem Sandboxing, strengen Zugriffskontrollen und menschlicher Verifikation zu kombinieren.
Anzeige
Verfügbarkeit und erste Praxistests
Der Zugriff erfolgt über die Gemini API und die Gemini Enterprise Agent Platform. Wer die Agentensteuerung vorab ausprobieren möchte, findet eine von Browserbase gehostete Demo-Umgebung. Um den praktischen Einsatz zu beschleunigen, stellt Google zudem eine Referenzimplementierung samt technischer Dokumentation bereit.
