OpenAI lässt KI-Agenten den Computer selbstständig bedienen
Das neue System analysiert Bildschirminhalte per Screenshot und steuert Programme ohne den Einsatz spezieller Schnittstellen, direkt über die API.

OpenAI ermöglicht es KI-Modellen ab sofort, Computer wie ein menschlicher Nutzer zu bedienen. Über die Responses API können Entwickler nun Agenten erstellen, die Software direkt über die grafische Oberfläche mit virtueller Maus und Tastatur steuern.
Anzeige
So funktioniert die direkte Software-Steuerung
Bislang waren KI-Assistenten meist darauf angewiesen, über spezifische Programmierschnittstellen mit anderer Software zu kommunizieren. OpenAI wählt mit dem sogenannten Computer-Using Agent (CUA) nun einen direkten Weg. Das Modell analysiert die aktuellen Bildschirminhalte über fortlaufende Screenshots und erkennt so den visuellen Aufbau einer Benutzeroberfläche.
Auf Basis dieser visuellen Daten plant das System die nächsten logischen Schritte. Eine integrierte Routine hilft der KI dabei, Zwischenziele zu definieren und den eigenen Fortschritt zu überwachen. Anschließend führt sie die Aufgaben selbstständig aus. Das Modell bewegt einen virtuellen Mauszeiger, klickt auf Menüs, tippt Texte und scrollt durch Dokumente.
Die KI bedient die Software folglich exakt so, wie es ein menschlicher Anwender tun würde. Für Entwickler bedeutet das eine enorme Arbeitserleichterung. Sie müssen keine aufwendigen Code-Anbindungen für jedes einzelne Programm mehr schreiben. Die KI kann stattdessen prinzipiell jede Anwendung nutzen, die auf einem Bildschirm dargestellt wird.
Quelle: OpenAI
Aufbau der neuen Schnittstelle
OpenAI integriert diese Fähigkeiten direkt in die bestehende Responses API. Entwickler können zwischen einer vorgefertigten Schleife wählen, welche die Aktionen automatisch nacheinander abarbeitet, oder eine komplett eigene Testumgebung konfigurieren.
Der Ablauf folgt dabei immer einem festen Muster. Das System sendet eine Aufgabe an das Modell, welches daraufhin eine Reihe von Aktionen berechnet. Eine Software-Brücke führt diese Befehle dann im Browser oder auf dem Desktop aus. Danach erhält die KI einen neuen Screenshot, um die Veränderungen zu registrieren und die nächste Aktion zu planen. Dieser Prozess wiederholt sich kontinuierlich, bis die Aufgabe abgeschlossen ist.
Quelle: OpenAI
Fokus auf Sicherheit und Kontrolle
Da ein autonomer Zugriff auf ein Betriebssystem offensichtliche Risiken birgt, gibt OpenAI klare Richtlinien vor. Das Unternehmen rät Entwicklern dringend, die KI ausschließlich in isolierten virtuellen Umgebungen laufen zu lassen. Das Modell soll niemals direkten Zugriff auf sensible lokale Dateien oder Systemvariablen des eigentlichen Host-Rechners erhalten.
Um kritische Fehler zu vermeiden, bleibt der Mensch ein notwendiger Kontrollpunkt. Bei sensiblen Vorgängen, wie dem Eingeben von Passwörtern oder dem Lösen von Captchas, unterbricht das Modell den Prozess automatisch. Erst wenn ein Anwender die Aktion manuell bestätigt, setzt die KI ihre Arbeit fort. Die aktuellen Funktionen befinden sich noch in einer frühen Phase und sollen durch das Feedback der ersten Nutzer in den kommenden Monaten weiter optimiert werden.

