Neues Google Model: Gemini 2.5 Computer Use
Das neue Gemini-Modell kann Computer steuern und setzt mit überlegener Leistung und Geschwindigkeit neue Maßstäbe im KI-Markt.

gpt-image-1 | All-AI.de
Was wäre, wenn eine KI nicht nur antwortet, sondern selbstständig den Computer bedient? Google DeepMind hat diese Vision zur Realität gemacht. Mit dem neuen Modell "Gemini 2.5 Computer Use" können KI-Agenten wie ein Mensch mit Benutzeroberflächen interagieren. Sie klicken, tippen und scrollen sich durch Webseiten und Apps, um komplexe Aufgaben autonom zu erledigen.
Wie die KI den Computer steuert
Die neue Technologie markiert einen Wendepunkt in der Automatisierung digitaler Prozesse. Das System agiert in einer Schleife aus Wahrnehmung und Handlung. Ein Entwickler gibt eine Aufgabe vor, woraufhin das Modell einen Screenshot der aktuellen Bildschirmanzeige analysiert und eine passende Aktion wie einen Mausklick oder eine Texteingabe vorschlägt. Nach der Ausführung wird ein neuer Screenshot erstellt und der Zyklus beginnt von vorn.
Diese Methode erlaubt es der KI, Formulare auszufüllen, durch Menüs zu navigieren oder Daten zu filtern. Die Fähigkeiten gehen über simple Klicks hinaus und umfassen auch das Ziehen und Ablegen von Elementen, die Nutzung von Tastenkombinationen und das eigenständige Surfen im Web. Google optimiert das Modell primär für Browser, doch erste Tests auf mobilen Geräten zeigen ebenfalls vielversprechende Resultate.
Leistungsdaten und Konkurrenzdruck
Google positioniert sein neues Modell an der Spitze des Wettbewerbs. Laut interner Benchmarks übertrifft Gemini 2.5 Computer Use führende Alternativen von Konkurrenten wie Anthropic oder OpenAI. Das Modell kombiniert hohe Genauigkeit bei der Steuerung von Oberflächen mit geringer Latenz, was schnelle Reaktionszeiten für den Nutzer bedeutet. Diese Effizienz macht es für den praktischen Einsatz in Unternehmen besonders attraktiv.
Die Konkurrenz schläft jedoch nicht. Der Markt für KI-Agenten entwickelt sich rasant, und auch andere Schwergewichte forschen an ähnlichen Technologien. Der Wettlauf um die Vorherrschaft bei autonomen KI-Systemen, die direkt mit Software interagieren, hat begonnen.
Quelle: Google
Sicherheit als oberste Priorität
Autonome KI-Agenten bergen neue Sicherheitsrisiken. Google begegnet diesen Herausforderungen mit einem mehrstufigen Sicherheitskonzept. Bereits während des Trainings wurden dem Modell Schutzmechanismen einprogrammiert, um Missbrauch zu verhindern. So soll der Agent beispielsweise das Umgehen von CAPTCHAs oder die Steuerung kritischer Systeme wie medizinischer Geräte verweigern.
Entwickler erhalten zudem zusätzliche Kontrollinstrumente. Ein externes Sicherheitssystem prüft jeden Handlungsvorschlag der KI, bevor dieser ausgeführt wird. Zudem lassen sich spezifische Anweisungen definieren, die riskante Aktionen von vornherein unterbinden oder eine menschliche Bestätigung erfordern. Der Zugang zu sensiblen Daten oder die Ausführung unbeabsichtigter Aktionen gelten als zentrale Risikofaktoren, die eine strenge Überwachung erfordern.
Quelle: Google
Der Markt für KI-Agenten explodiert
Die Veröffentlichung von Gemini 2.5 Computer Use fällt in eine Zeit enormen Wachstums. Analysten von Gartner prognostizieren, dass bis 2026 bereits 40 Prozent aller Unternehmensanwendungen über spezialisierte KI-Agenten verfügen werden. Das entspricht einer massiven Steigerung im Vergleich zu heute.
Google selbst nutzt die Technologie bereits intern, um Softwaretests zu beschleunigen und agentenbasierte Funktionen in die Google Suche zu integrieren. Frühe Testkunden berichten von Effizienzsteigerungen von bis zu 50 Prozent bei der Automatisierung von Arbeitsabläufen. Das Modell steht Entwicklern ab sofort über die Gemini API zur Verfügung.
MITMACHEN
Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter - dauert nur Sekunden.
Teile diesen Beitrag
Folge uns auf Social Media
Unterstütze uns direkt
KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir!
KURZFASSUNG
- Google DeepMind hat mit Gemini 2.5 Computer Use ein KI-Modell veröffentlicht, das autonomen Agenten die Steuerung von Benutzeroberflächen ermöglicht.
- Die KI kann wie ein Mensch klicken, tippen und scrollen, um komplexe Aufgaben in Browsern und Anwendungen selbstständig auszuführen.
- Das Modell übertrifft laut Google die Konkurrenz in Leistung und Geschwindigkeit und verfügt über integrierte Sicherheitsmechanismen zur Risikominimierung.
- Die Technologie ist bereits im Einsatz und treibt einen rasant wac-hsenden Markt für KI-Agenten an, der die Software-Automatisierung revolutionieren wird.