Verzerrte KI? OpenAI entdeckt Namens-Effekte bei ChatGPT-Antworten

Geschlecht und Herkunft beeinflussen Antworten – besonders bei kreativen Anfragen.

Zusammenfassung | AI Caramba, 20.10.24

Firefly | All-AI.de

Worum geht es?

Eine aktuelle Studie von OpenAI zeigt, dass der Nutzername, den Anwender bei ChatGPT verwenden, die Antworten des KI-Systems beeinflussen kann. Die Forschenden sprechen von sogenannten „Verzerrungen aus der Ich-Perspektive“ (First-Person Biases), die insbesondere bei kreativen Aufgaben wie dem Geschichtenschreiben auftreten.

News

Namen und Vorurteile: Eine subtile Verbindung

In ihrer Untersuchung verglichen die Forschenden identische Anfragen an ChatGPT, änderten jedoch systematisch die mit dem Benutzer verknüpften Namen. Namen sind oft mit kulturellen, geschlechtsspezifischen oder rassischen Assoziationen verbunden, was sie zu einem relevanten Faktor macht, um Verzerrungen in KI-Systemen zu untersuchen.

Interessanterweise stellten sie fest, dass es bei standardisierten Anfragen, die klare Antworten erfordern, keine signifikanten Unterschiede gab. Doch bei kreativeren Aufgaben, insbesondere dem Schreiben von Geschichten, fielen Unterschiede auf. So tendierte ChatGPT dazu, bei Nutzern mit weiblich klingenden Namen emotionalere Geschichten zu generieren und weibliche Protagonisten zu wählen. Dagegen waren die Geschichten bei männlich klingenden Namen oft düsterer im Ton.

Stereotype bei kreativen Aufgaben

Ein besonders aufschlussreiches Beispiel ist die unterschiedliche Interpretation des Begriffs „ECE“. Bei einer Nutzerin namens Ashley verstand ChatGPT „ECE“ als „Early Childhood Education“ (Frühkindliche Bildung), während bei einem Nutzer namens Anthony „ECE“ als „Electrical & Computer Engineering“ (Elektrotechnik und Informatik) interpretiert wurde.

Die Forschenden betonten jedoch, dass solche stereotypen Verzerrungen selten auftraten. In den meisten Fällen waren die Unterschiede gering, insbesondere bei präziseren Aufgaben, die weniger Interpretationsspielraum ließen.

Geschlechtsspezifische und ethnische Verzerrungen

Neben den geschlechtsspezifischen Verzerrungen untersuchte die Studie auch ethnische Stereotype, die durch Nutzernamen suggeriert wurden. Während bei kreativen Aufgaben, wie dem Geschichtenerzählen, geschlechtsspezifische Verzerrungen in bis zu zwei Prozent der Antworten auftraten, lagen die ethnischen Verzerrungen insgesamt niedriger – zwischen 0,1 und 1 Prozent. Der Bereich „Reisen“ zeigte dabei die größten Unterschiede in den Antworten für verschiedene ethnische Namen.

Fortschritte durch Reinforcement Learning

Um diesen Verzerrungen entgegenzuwirken, hat OpenAI nach eigenen Angaben Verfahren wie Reinforcement Learning (RL) eingesetzt. Diese Anpassungen haben die Verzerrungen in neueren Modellen erheblich reduziert. So weisen aktuelle Modelle wie GPT-4 nur noch Verzerrungen im Bereich von 0,2 Prozent auf. Dennoch bleibt ein gewisses Maß an Vorurteilen bestehen, vor allem bei Aufgaben, die eine höhere kreative Flexibilität erfordern.

Ausblick

Die Studie von OpenAI zeigt, dass selbst scheinbar neutrale KI-Systeme wie ChatGPT subtile Verzerrungen aufweisen können, die durch den Nutzernamen beeinflusst werden. Diese Verzerrungen treten hauptsächlich bei kreativen Aufgaben auf, während standardisierte Anfragen weitgehend unbeeinflusst bleiben. OpenAI arbeitet jedoch aktiv daran, diese Vorurteile in zukünftigen Modellen weiter zu reduzieren.

Short

OpenAI hat herausgefunden, dass der Nutzername ChatGPTs Antworten bei kreativen Aufgaben beeinflussen kann.
Besonders bei Geschichtenschreiben treten leichte Verzerrungen auf, die geschlechtsspezifische oder ethnische Unterschiede reflektieren.
Die Verzerrungen sind gering, treten jedoch verstärkt bei kreativen Aufgaben auf, während präzise Anfragen kaum betroffen sind.
OpenAI arbeitet daran, diese Vorurteile durch Reinforcement Learning zu reduzieren.