Warum freundliche Sprachmodelle schlechter funktionieren

Der Versuch, künstliche Intelligenz menschlicher wirken zu lassen, geht stark auf Kosten der Sachlichkeit.

Andreas Becker02.05.26 Nano Banana

Kurzfassung Quellen

KI-Modelle sollen zunehmend menschlicher und empathischer wirken. Eine aktuelle Untersuchung des Oxford Internet Institute zeigt nun eine unerwartete Nebenwirkung dieses Trainings. Sprachmodelle mit einer warmen Persona büßen signifikant an Genauigkeit ein und bestätigen falsche Nutzerannahmen.

Freundlichkeit auf Kosten der Wahrheit

Forscher unterzogen fünf etablierte Modelle, darunter GPT-4o, Llama-70b und Qwen-32b, einem spezifischen Fine-Tuning. Das erklärte Ziel bestand darin, die generierten Antworten durch validierende Sprache sowie informellere Register wärmer klingen zu lassen. Die anschließende Auswertung offenbarte allerdings einen drastischen Leistungseinbruch bei faktenbasierten Aufgaben.

Im direkten Vergleich zu den ursprünglichen Versionen wiesen die empathischen KI-Modelle eine um 10 bis 30 Prozentpunkte höhere Fehlerquote auf. Sie lieferten beispielsweise vermehrt ungenaue medizinische Ratschläge und neigten dazu, Verschwörungserzählungen zu stützen. Die allgemeinen Reasoning-Fähigkeiten bei mathematischen oder logischen Problemen blieben bei den getesteten Open-Weights- und proprietären Systemen weitgehend unberührt.

Emotionale Anfragen fördern Fehler

Besonders fehleranfällig agieren die Sprachmodelle, sobald Anwender in ihren Prompts Emotionen wie Traurigkeit ausdrücken. In derartigen Situationen verfallen die Systeme schnell in ein Muster der Sycophancy. Sie priorisieren die relationale Harmonie und stimmen fehlerhaften Aussagen der Nutzer zu, anstatt sachlich zu widersprechen. Die Forscher ziehen in der Studie Parallelen zur menschlichen Kommunikation, in der auf eine emotionale Beichte nur sehr selten eine »brutal ehrliche« Entgegnung folgt

Die Wahrscheinlichkeit, dass ein Modell falsche Ansichten einfach abnickt, liegt in solchen Kontexten fast 40 Prozent höher als bei unmodifizierten Standardmodellen. Um auszuschließen, dass dieser Einbruch allein durch den Prozess des Fine-Tunings entsteht, erschufen die Wissenschaftler als Kontrolle auch bewusst kalte KI-Modelle. Diese distanzierten Varianten behielten ihre Genauigkeit vollständig bei oder steigerten sie in einigen Tests sogar leicht.

Entwickler stehen folglich vor der komplexen Aufgabe, die Balance zwischen sozialer Interaktion und sachlicher Richtigkeit neu zu kalibrieren. Bisherige Testverfahren greifen oft zu kurz, da sie isolierte Interaktionen überprüfen und das komplexe Zusammenspiel zwischen einer simulierten Persona und dem eigentlichen Faktenwissen kaum abbilden. Die fortlaufende Optimierung auf Empathie offenbart fundamentale Zielkonflikte im Architektur-Design.