Anthropic Biologie Grafik

KI Modelle von OpenAI und Anthropic versagen in der Biologie

Komplexe Datenbanken überfordern aktuelle Sprachmodelle enorm. Ein neues Tool löst das Problem nun mit fast hundert Prozent Genauigkeit.

Andreas Becker GPT-Images-2.0
Anthropic Biologie Grafik

Aktuelle KI-Modelle scheitern bei der Datenrecherche in virologischen Datenbanken dramatisch. Eine Forschergruppe um Laura Luebbert zeigt nun, wie fehlerhaft Agenten arbeiten. Mit der neu entwickelten Schnittstelle »gget virus« steigt die Genauigkeit der Systeme jedoch auf nahezu 100 Prozent.

Das Problem mit der Klick-Infrastruktur

KI-Agenten wie Claude Opus 4.7 oder GPT-5.5 programmieren bereits komplexe Software. In der rechnergestützten Biologie versagen sie jedoch oft. Die Systeme finden sich in den veralteten Datenbanken nicht zurecht.

Virologische Datenbanken wie NCBI Virus sind für Menschen und ihre Webbrowser konzipiert. Nutzer müssen sich durch komplexe Filter klicken. Für automatisierte KI-Agenten ist dieses Design ein großes Hindernis.

Forscher vergleichen die Situation mit einer alten italienischen Bergstadt. Moderne Autos kommen auf den engen, verwinkelten Straßen nicht voran. Ähnlich ergeht es den KI-Modellen mit heterogenen Dateiformaten und versteckten Metadaten.

Das Problem liegt in der Architektur der Systeme. Wenn Forscher alle SARS-CoV-2-Sequenzen aus dem Jahr 2025 mit einem bestimmten Glykoprotein suchen, erfordert das im Browser nur wenige Klicks. Ein programmierter Abruf benötigt hingegen ein langes Skript, das verschiedene APIs wie REST oder E-utilities verknüpft.

Anzeige

Fatale Fehler bei der Datenrecherche

Das Anthropic-Team testete die Modelle mit dem Benchmark VirBench. Die Agenten sollten virale Sequenzen aus NCBI Virus abrufen. Die Genauigkeit der Modelle schwankte stark und lag im Schnitt zwischen 16,9 und 91,3 Prozent.

Quelle: Anthropic

Wie wichtig ein präziser Datenzugriff ist, zeigt der Ausbruch des Bundibugyo-Ebolavirus in der Demokratischen Republik Kongo im Mai 2026. Forscher mussten schnell klären, wie sich der neue Erreger von alten Varianten unterscheidet. Solche Fragen erfordern den fehlerfreien Abgleich mit historischen Genomen aus Datenbanken wie Pathoplexus.

Genau hier machen KI-Agenten ohne Hilfe entscheidende Fehler. Die Forscher demonstrierten dies an einer Abfrage zum Zaire-Ebolavirus. Das Modell Claude Sonnet 4 lieferte bei drei identischen Anfragen völlig unterschiedliche Datensätze.

Quelle: Anthropic

Diese fehlerhaften Daten führten zu falschen Stammbäumen. Die KI datierte den Ursprung eines Ausbruchs fälschlicherweise auf das Jahr 1922 statt 2014. Auch Analysen zur Wirksamkeit von Antikörper-Therapien wie Maftivimab brachten dadurch unbrauchbare Ergebnisse.

»gget virus« als deterministische Lösung

Das Team entwickelte daraufhin zusammen mit dem NCBI die Abrufschicht »gget virus«. Diese Software agiert als Übersetzer zwischen den KI-Agenten und den Datenbanken. Sie kombiniert verschiedene APIs und entscheidet selbstständig über notwendige lokale Filter.

Die Schnittstelle liefert standardisierte, maschinenlesbare Ergebnisse. Sobald die KI-Agenten Zugriff auf dieses System erhielten, stieg ihre Genauigkeit signifikant. Alle Modelle erreichten Werte von über 90 Prozent.

Das Modell GPT-5.5 erzielte sogar eine Genauigkeit von 99,7 Prozent. Die starken Leistungsschwankungen zwischen den einzelnen Durchläufen verschwanden komplett. Durch die strukturierte Schnittstelle spielt die Wahl des jeweiligen KI-Modells plötzlich eine untergeordnete Rolle.

Zukunft der wissenschaftlichen KI

Biologische Dateninfrastrukturen müssen zwingend für KI-Agenten optimiert werden. Deterministische Systeme wie »gget virus« bilden das notwendige Fundament. Nur so können Modelle verlässliche Forschung betreiben.

Forscher fordern daher den konsequenten Ausbau solcher maschinenlesbaren Umgebungen. Selbst wenn zukünftige KIs besser mit unstrukturierten Webportalen umgehen, bleibt der direkte Abruf effizienter und nachvollziehbarer. Die Infrastruktur der Wissenschaft steht vor einem notwendigen Umbau.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.