OpenAI Weltbild

KI ist jetzt so gut wie menschliche Experten

OpenAIs neuer GDPval-Benchmark beweist: In 44 Berufsfeldern erreichen GPT-5 und Claude 4.1 bereits das Niveau von erfahrenen Fachkräften.

OpenAI Weltbild
OpenAI | All-AI.de

EINLEITUNG

OpenAI hat eine neue Bewertungsmethode vorgestellt, die misst, wie gut Künstliche Intelligenz bei realen Arbeitsaufgaben abschneidet. Der Test namens GDPval simuliert Jobs von der Rechtsberatung bis zur Fertigungsplanung. Die Ergebnisse sind ein Weckruf: Führende Modelle wie GPT-5 und Claude Opus 4.1 erreichen bereits das Qualitätsniveau menschlicher Experten und erledigen die Aufgaben deutlich schneller und günstiger.

NEWS

Weg von der Theorie, hin zur Praxis

Bisherige KI-Tests konzentrierten sich oft auf akademische Fragen oder Programmierwettbewerbe. GDPval bricht mit dieser Tradition. Die Methode prüft die Fähigkeiten von KI-Modellen anhand von 1.320 spezialisierten Aufgaben aus 44 verschiedenen Berufsfeldern. Diese stammen aus neun Branchen, die einen erheblichen Teil der amerikanischen Wirtschaftsleistung ausmachen, darunter das Gesundheitswesen, die Finanzbranche und die öffentliche Verwaltung. Entwickelt wurden die Aufgaben von Fachkräften mit durchschnittlich 14 Jahren Berufserfahrung, um maximale Realitätsnähe zu gewährleisten.

Der entscheidende Unterschied zu alten Benchmarks liegt in der Komplexität der Aufgaben. Statt reiner Textantworten erwartet GDPval multimodale Ergebnisse, wie sie im Berufsalltag üblich sind. Die Modelle müssen beispielsweise auf Basis von Referenzdokumenten vollständige Präsentationen, Tabellenkalkulationen oder Ingenieurspläne erstellen. Dieser Ansatz liefert ein deutlich genaueres Bild davon, wie nützlich eine KI für qualifizierte Fachkräfte tatsächlich sein kann.

GPT-5 und Claude 4.1 auf Expertenniveau

Die Resultate der ersten Testdurchläufe sind beeindruckend. OpenAIs GPT-5 und das Konkurrenzmodell Claude Opus 4.1 von Anthropic liefern Ergebnisse, die von menschlichen Gutachtern als gleichwertig mit der Arbeit von Branchenexperten eingestuft wurden. Besonders die Fortschritte sind bemerkenswert: Während GPT-4o vor 15 Monaten nur 13,7 Prozent der Aufgaben zufriedenstellend löste, bewältigt GPT-5 heute fast dreimal so viele. Dabei zeigen sich unterschiedliche Stärken: Claude Opus 4.1 überzeugte vor allem bei der Gestaltung und Formatierung von Dokumenten, während GPT-5 bei tiefem Fachwissen die Nase vorn hatte.

Neben der Qualität beeindrucken vor allem Geschwindigkeit und Kosten. Laut OpenAI erledigen die Spitzenmodelle die GDPval-Aufgaben rund 100-mal schneller und kostengünstiger als menschliche Experten. Das Unternehmen schränkt jedoch ein, dass diese Zahlen die Kosten für die notwendige menschliche Überprüfung, eventuelle Nachbesserungen und die Integration in bestehende Arbeitsabläufe noch nicht berücksichtigen.

Quelle: OpenAI

Grenzen und der nächste Schritt

OpenAI benennt offen die Grenzen der ersten Version von GDPval. Das System testet bisher nur einmalige, abgeschlossene Aufgaben. Fähigkeiten wie das Erstellen mehrerer Entwürfe oder die Anpassung an einen sich verändernden Kontext über einen längeren Zeitraum können noch nicht gemessen werden. Zukünftige Versionen sollen daher interaktivere Szenarien und kontextreichere Aufgabenstellungen beinhalten, um die Zusammenarbeit zwischen Mensch und Maschine besser abzubilden.

Die Entwicklung von GDPval ist Teil eines größeren Trends hin zu praxisnahen Bewertungen, da viele KI-Modelle bei traditionellen, akademischen Benchmarks langsam an ihre Grenzen stoßen. Während die Debatte über die gesellschaftlichen Folgen von KI oft spekulativ bleibt, liefert GDPval konkrete Daten über die tatsächlichen Fähigkeiten aktueller Modelle im Arbeitskontext.

MITMACHEN

Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter - dauert nur Sekunden.

Teile diesen Beitrag

Folge uns auf Social Media

Unterstütze uns direkt

KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir!

KURZFASSUNG

  • OpenAI stellt GDPval vor, ein neues Bewertungssystem für KI-Modelle bei realen Arbeitsaufgaben aus 44 Berufsfeldern
  • GPT-5 und Claude Opus 4.1 erreichen bereits die Qualität menschlicher Experten bei wirtschaftlich relevanten Aufgaben
  • Die KI-Modelle arbeiten 100-mal schneller und kostengünstiger als Menschen, benötigen aber weiterhin menschliche Überwachung
  • GDPval testet authentische Arbeitsprodukte wie Rechtsdokumente und Pflegekonzepte statt akademischer Prüfungen

QUELLEN