Ein Physiker vergleicht NotebookLM mit ChatGPT

KI im Physik-Test: NotebookLM schlägt ChatGPT

Forscher von Google haben sechs große KI-Modelle auf ihre Fähigkeiten in der Quantenphysik getestet. Die Ergebnisse überraschen.

Andreas Becker16.03.26 Nano Banana

Kurzfassung Quellen

Forscher von Google haben sechs bekannte KI-Modelle mit komplexen Fragen zur Hochtemperatursupraleitung getestet.
NotebookLM liefert in der Studie die besten Ergebnisse bei der wissenschaftlichen Evidenz und der Faktendichte.
ChatGPT und Perplexity punkten hingegen mit besonders prägnanten und schnellen Zusammenfassungen.
Das Modell Claude belegt seine physikalischen Aussagen im direkten Vergleich überraschend schwach.

Google hat aktuelle Benchmark-Ergebnisse veröffentlicht, die zeigen, wie gut KI-Modelle Physiker im Forschungsalltag unterstützen. Forscher prüften sechs Systeme auf ihre Fähigkeit, anspruchsvolle Fragen zur Hochtemperatursupraleitung fachgerecht zu beantworten.

NotebookLM dominiert bei den Fakten

Google testete über eine API bekannte Modelle wie ChatGPT, Claude, Gemini, Perplexity sowie NotebookLM und ein speziell angepasstes Custom-Modell. Die Forscher entwickelten für diesen Test einen neuen Benchmark, der gezielt das Reasoning der KIs in der Quantenphysik auf die Probe stellt. Die Ergebnisse offenbaren große Unterschiede in der Antwortqualität.

NotebookLM erzielt die höchsten Werte bei der Faktendichte und der ausgewogenen Perspektive. Das System verarbeitet den komplexen Prompt der Physiker fehlerfrei und liefert sehr detaillierte Antworten.

Besonders bei der wissenschaftlichen Evidenz lässt das Google-Tool die Konkurrenz weit hinter sich. Die Tester bewerteten streng, wie gut die Modelle ihre Aussagen mit handfesten Belegen und Quellen stützen. Das Modell Claude schneidet in dieser speziellen Kategorie überraschend schwach ab und bildet das klare Schlusslicht in der Messung.

Quelle: Google

Prägnanz versus wissenschaftliche Tiefe

Ein völlig anderes Bild zeigt sich bei der Kürze und Verständlichkeit der Antworten. ChatGPT und Perplexity fassen komplexe Informationen am schnellsten zusammen. Beide Systeme erhalten hohe Punktzahlen für ihre sehr prägnante Textausgabe.

Sie liefern Forschern zügige Überblicke, dringen aber weniger tief in die akademische Fachliteratur ein. Solche Modelle helfen hervorragend bei der ersten Orientierung, ersetzen jedoch keine tiefgehende Literaturrecherche.

Ein angepasstes Custom-Modell trat zudem im spezifischen Bereich der Bildrelevanz gegen Perplexity an. KIs haben oft große Schwierigkeiten, korrekte wissenschaftliche Diagramme auszugeben. Das Custom-Modell wählt laut den vorliegenden Daten deutlich passendere visuelle Darstellungen für die physikalischen Themen aus als der Konkurrent Perplexity.

Die neue Studie ordnet die Fähigkeiten aktueller KI-Modelle im akademischen Umfeld exakt ein. Forscher müssen je nach Anforderung das passende System wählen. Viele KIs scheitern noch immer an extrem spezifischen Detailfragen, da ihre Trainingsdaten eher breites Allgemeinwissen abdecken. Wer schnelle Zusammenfassungen für ein Projekt benötigt, nutzt andere KIs als ein Wissenschaftler, der tief in die komplexe Materie eintaucht und exakte Belege fordert.

KI im Physik-Test: NotebookLM schlägt ChatGPT

NotebookLM dominiert bei den Fakten

Quelle: Google

Prägnanz versus wissenschaftliche Tiefe

Anzeige

Neuer KI-Bildgenerator überholt Seedance 2.0 im Benchmark

ElevenMusic bezahlt Nutzer für generierte KI-Songs

OpenAI GPT-Image-2: Erste Leaks und Bilder

Claude-Desktop-App installiert »Spyware« auf MacOS

Microsoft veröffentlicht 3 starke neue KI-Modelle

GPT-5 bändigen: Drei Worte, die alles ändern!

Eigene Stimme in Veo 3 einsetzen: Der Profi-Guide

So funktionieren die neuen ChatGPT-5-Personas

ElevenLabs Test 2026: Voice, Agenten, Kosten und Tipps

Face Swap mit einem Klick

Seedance 2.0 Test 2026: Verfügbarkeit, Benchmarks, Tipps

Schüsse und Brandanschlag in 48 Stunden auf das Haus von Sam Altman

Frauen überholen Männer bei KI

Anthropic stellt neuen »BioMysteryBench« vor

KI im Physik-Test: NotebookLM schlägt ChatGPT

NotebookLM dominiert bei den Fakten

Quelle: Google

Prägnanz versus wissenschaftliche Tiefe

Anzeige

KI-Wissen ohne Paywall