Ein OpenAI Mediziner vor einem HealthBench Klinikum

ChatGPT als Gesundheitsberater: Fortschritt oder Risiko?

Millionen fragen ChatGPT zu ihrer Gesundheit – HealthBench zeigt nun, wie gut (oder gefährlich) das wirklich ist. Was sind die Ergebnisse?

Kurzfassung | Andreas Becker, 16.05.25

gpt-image-1 | All-AI.de

EINLEITUNG

Immer mehr Nutzer wenden sich bei gesundheitlichen Fragen zuerst an ChatGPT – oft noch vor dem ersten Arztbesuch. Doch wie zuverlässig sind die Antworten der KI? Mit „HealthBench“ will OpenAI genau das systematisch testen. Ein globales Bewertungssystem für medizinische KI-Kompetenz – aber reicht das, um aus einem Chatbot einen vertrauenswürdigen Gesundheitsratgeber zu machen?

NEWS

HealthBench: Diagnosetests für Maschinen

OpenAIs neues Testsystem HealthBench basiert auf 5.000 simulierten Arzt-Patienten-Gesprächen, erstellt von über 260 Medizinern aus 60 Ländern. Jedes Gespräch wird nach klaren Regeln bewertet: Welche Informationen fehlen? Welche Fehler dürfen nicht passieren? Wie patientennah ist die Kommunikation? Bewertet wird von GPT-4.1 – mit dem Ziel, Schwächen systematisch zu identifizieren.

Digitale Diagnose statt Wartezimmer – aber zu welchem Preis?

Die Nachfrage ist da: Laut einer Studie aus Sydney konsultieren bereits 60 % der Befragten ChatGPT zu medizinischen Fragen, für die sie sonst ärztliche Hilfe gesucht hätten. Der Grund liegt auf der Hand – schnell, kostenlos, rund um die Uhr. Aber das birgt Risiken. Der kalifornische Arzt Dr. Ran D. Anbar warnt: „Es ist nur eine Frage der Zeit, bis Fehlinformationen Patienten ernsthaft schaden.“

Wer performt am besten? KI-Scoreboard im Gesundheitscheck

Laut OpenAI liegt das neue „o3“-Modell mit 60 % Bewertungsgenauigkeit vorn – vor Grok (54 %) und Gemini 2.5 Pro (52 %). Das kostenlose GPT-3.5 Turbo landet abgeschlagen bei 16 %. Überraschend: Ein kompaktes GPT-4.1 Nano-Modell übertrifft ältere Schwergewichte – bei einem Bruchteil der Betriebskosten. Damit zeigt sich: Performance in der Medizin hängt nicht nur von Größe ab.

Mehr Sicherheit für medizinische KI

HealthBench ist mehr als nur ein interner Test: Es ist ein Versuch, die Diskussion um medizinische KI auf eine objektive Basis zu stellen. Statt spekulativer Einschätzungen gibt es erstmals strukturierte Bewertungen – erstellt von echten Fachleuten. Für Entwickler, Kliniken und Aufsichtsbehörden ein Werkzeug, um Risiken besser einschätzen und Modelle gezielter weiterentwickeln zu können.

AUSBLICK

Die KI darf mitreden – aber nicht übernehmen

HealthBench ist ein wichtiger Schritt – weil er zeigt, dass OpenAI den Hype um KI-Medizin nicht einfach durchwinkt, sondern prüft. ChatGPT kann helfen, Symptome einzuordnen, Informationen zu strukturieren oder Patienten zu informieren. Aber es bleibt ein Tool – kein Arzt. Die Verantwortung liegt bei Menschen. Nur wenn diese Unterscheidung klar bleibt, kann KI im Gesundheitswesen sinnvoll eingesetzt werden.

UNSER ZIEL

KURZFASSUNG

OpenAI hat mit HealthBench ein neues Tool veröffentlicht, um die medizinische Kompetenz von KI-Modellen wie ChatGPT zu testen.
Das Tool basiert auf realitätsnahen Arzt-Patienten-Simulationen, die von Ärzten aus aller Welt erstellt wurden.
Das beste Modell erreichte eine Leistung von 60 %, während kostenlose Modelle wie GPT-3.5 weit abgeschlagen blieben.
HealthBench soll helfen, Schwächen zu identifizieren und den sicheren Einsatz von KI in der Medizin zu fördern.