OpenAI lässt KI-Agenten den Computer selbstständig bedienen

Das neue System analysiert Bildschirminhalte per Screenshot und steuert Programme ohne den Einsatz spezieller Schnittstellen, direkt über die API.

Andreas Becker11.03.26 Nano Banana

Kurzfassung Quellen

OpenAI hat die Responses API um eine direkte Computer-Steuerung für KI-Modelle erweitert.
Der neue Computer-Using Agent analysiert Bildschirminhalte per Screenshot und bedient Software über eine virtuelle Maus und Tastatur.
Entwickler benötigen dadurch keine speziellen Programmierschnittstellen mehr, um externe Anwendungen in KI-Workflows einzubinden.
Das System erfordert den Einsatz isolierter Umgebungen und verlangt bei sensiblen Aktionen eine manuelle Bestätigung durch den Anwender.

OpenAI ermöglicht es KI-Modellen ab sofort, Computer wie ein menschlicher Nutzer zu bedienen. Über die Responses API können Entwickler nun Agenten erstellen, die Software direkt über die grafische Oberfläche mit virtueller Maus und Tastatur steuern.

So funktioniert die direkte Software-Steuerung

Bislang waren KI-Assistenten meist darauf angewiesen, über spezifische Programmierschnittstellen mit anderer Software zu kommunizieren. OpenAI wählt mit dem sogenannten Computer-Using Agent (CUA) nun einen direkten Weg. Das Modell analysiert die aktuellen Bildschirminhalte über fortlaufende Screenshots und erkennt so den visuellen Aufbau einer Benutzeroberfläche.

Auf Basis dieser visuellen Daten plant das System die nächsten logischen Schritte. Eine integrierte Routine hilft der KI dabei, Zwischenziele zu definieren und den eigenen Fortschritt zu überwachen. Anschließend führt sie die Aufgaben selbstständig aus. Das Modell bewegt einen virtuellen Mauszeiger, klickt auf Menüs, tippt Texte und scrollt durch Dokumente.

Die KI bedient die Software folglich exakt so, wie es ein menschlicher Anwender tun würde. Für Entwickler bedeutet das eine enorme Arbeitserleichterung. Sie müssen keine aufwendigen Code-Anbindungen für jedes einzelne Programm mehr schreiben. Die KI kann stattdessen prinzipiell jede Anwendung nutzen, die auf einem Bildschirm dargestellt wird.

Quelle: OpenAI

Aufbau der neuen Schnittstelle

OpenAI integriert diese Fähigkeiten direkt in die bestehende Responses API. Entwickler können zwischen einer vorgefertigten Schleife wählen, welche die Aktionen automatisch nacheinander abarbeitet, oder eine komplett eigene Testumgebung konfigurieren.

Der Ablauf folgt dabei immer einem festen Muster. Das System sendet eine Aufgabe an das Modell, welches daraufhin eine Reihe von Aktionen berechnet. Eine Software-Brücke führt diese Befehle dann im Browser oder auf dem Desktop aus. Danach erhält die KI einen neuen Screenshot, um die Veränderungen zu registrieren und die nächste Aktion zu planen. Dieser Prozess wiederholt sich kontinuierlich, bis die Aufgabe abgeschlossen ist.

Quelle: OpenAI

Fokus auf Sicherheit und Kontrolle

Da ein autonomer Zugriff auf ein Betriebssystem offensichtliche Risiken birgt, gibt OpenAI klare Richtlinien vor. Das Unternehmen rät Entwicklern dringend, die KI ausschließlich in isolierten virtuellen Umgebungen laufen zu lassen. Das Modell soll niemals direkten Zugriff auf sensible lokale Dateien oder Systemvariablen des eigentlichen Host-Rechners erhalten.

Um kritische Fehler zu vermeiden, bleibt der Mensch ein notwendiger Kontrollpunkt. Bei sensiblen Vorgängen, wie dem Eingeben von Passwörtern oder dem Lösen von Captchas, unterbricht das Modell den Prozess automatisch. Erst wenn ein Anwender die Aktion manuell bestätigt, setzt die KI ihre Arbeit fort. Die aktuellen Funktionen befinden sich noch in einer frühen Phase und sollen durch das Feedback der ersten Nutzer in den kommenden Monaten weiter optimiert werden.