Reflection 70B: Vom „besten KI-Modell“ zur großen Enttäuschung

Das Hype-Modell von OthersideAI scheitert in Tests – Matt Shumer erklärt Fehler und gelobt Besserung.

Zusammenfassung | AI Caramba, 08.10.24
Reflection 70B
Flux Schnell | All-AI.de

Worum geht es?

Das von OthersideAI entwickelte Open-Source-Modell Reflection 70B sollte als das weltweit leistungsstärkste Sprachmodell die KI-Welt revolutionieren. Doch der große Hype um das Modell endet in einer Enttäuschung. Entwickler Matt Shumer räumt Fehler ein und verspricht, weiter an der Technologie zu arbeiten.

News

Enttäuschung nach großem Hype

Anfang September 2024 verkündete das KI-Start-up OthersideAI stolz, mit Reflection 70B das "beste Open-Source-Modell der Welt" geschaffen zu haben. Laut Gründer Matt Shumer sollte das Modell sogar mit den besten geschlossenen Systemen wie Claude 3.5 Sonnet und GPT-4 mithalten können. Der Hype war groß: Ein Open-Source-Modell, das die Elite der KI-Modelle herausfordert – ein Traum vieler Entwickler und Forscher.

Doch die Ernüchterung folgte schnell. In unabhängigen Tests schnitt Reflection 70B deutlich schlechter ab als angekündigt. Matt Shumer musste schließlich einräumen, dass das Modell "die ursprünglich berichteten Benchmarks nicht erreicht." Er gestand Fehler in der Entwicklung ein und kündigte an, weiterhin am Konzept des "Reflection-Tuning" arbeiten zu wollen.

Reflection-Tuning: Revolutionäres Konzept oder Fehlschlag?

Reflection 70B basiert auf der sogenannten "Reflection-Tuning"-Methode, die es KI-Modellen ermöglichen soll, ihre eigenen Fehler zu erkennen und zu korrigieren. In einem zweistufigen Prozess erstellt das Modell eine vorläufige Antwort, reflektiert diese und identifiziert mögliche Fehler, um dann eine korrigierte Version zu generieren. Diese Methode sollte laut Shumer die Präzision der Antworten und die Leistung des Modells verbessern.

Ein Beispiel dafür ist die Aufgabe, die Anzahl der Buchstaben „r“ im Wort „Strawberry“ zu zählen. In der ersten Antwort gab das Modell fälschlicherweise die Anzahl 2 an, korrigierte sich dann aber auf die richtige Antwort 3. Solche Beispiele wurden verwendet, um das Modell zu trainieren.

Das Konzept klingt vielversprechend und sollte vor allem die Schwäche bisheriger Modelle, falsche Informationen (sogenannte "Halluzinationen") zu generieren, beheben. Allerdings zeigte sich in der Praxis, dass diese Methode nicht immer die erwartete Leistung brachte. In Benchmarks wie MMLU, MATH, IFEval und GSM8K, bei denen Reflection 70B ursprünglich Bestwerte erzielt haben sollte, wurden die Erwartungen nicht erfüllt.

Fehlgeschlagene Tests und Zweifel

Die Veröffentlichung von Reflection 70B war von vielen Versprechungen begleitet, doch in unabhängigen Tests konnte das Modell die hohen Erwartungen nicht erfüllen. Die Vergleichsplattform Artificial Analysis zeigte, dass Reflection 70B sogar schlechter als das auf LLaMA-3.1-70B basierende Modell abschnitt, auf dem es eigentlich aufbaut.

Matt Shumer erklärte die schlechten Testergebnisse mit technischen Problemen beim Upload der Modellgewichte zu Hugging Face, einer Plattform für KI-Modelle. Demnach seien die öffentlich zugänglichen Modellgewichte ein „Mix von verschiedenen Modellen“. Interne Tests des von OthersideAI selbst gehosteten Modells zeigten jedoch bessere Ergebnisse. Um Verwirrung zu klären, stellte Shumer ausgewählten Personen eine exklusive Schnittstelle zu „seinem“ Modell zur Verfügung. Doch auch diese Tests lieferten keine eindeutigen Beweise für die angebliche Leistungsstärke von Reflection 70B.

Noch merkwürdiger: Einige Nutzer fanden Hinweise darauf, dass die Reflection-API zeitweise auf das geschlossene Modell Claude 3.5 Sonnet von Anthropic zugriff. Dies sorgte für zusätzliche Zweifel an der Glaubwürdigkeit der gemachten Versprechungen.

Benchmarks: Manipulation leicht gemacht?

Die Kontroverse um Reflection 70B wirft ein allgemeines Problem in der KI-Branche auf: die Zuverlässigkeit von Benchmarks. Jim Fan, ein KI-Forscher bei Nvidia, wies darauf hin, wie einfach es ist, LLM-Benchmarks wie MMLU, GSK-8K und HumanEval zu manipulieren. Modelle können beispielsweise mit neu generierten Fragen trainiert werden, die den Testfragen ähneln, wodurch die Ergebnisse verzerrt werden.

Fan empfiehlt daher alternative Bewertungsmethoden, wie die Chatbot Arena von LMSy, bei der Menschen in Blindtests LLM-Ergebnisse bewerten, oder private Benchmarks von Drittanbietern wie Scale AI. Solche Methoden könnten dazu beitragen, tatsächlich überlegene Modelle zu identifizieren und die Manipulation von Benchmark-Ergebnissen zu vermeiden.

Entschuldigung und Zukunftspläne

Angesichts des Misserfolgs entschuldigte sich Matt Shumer für den Verlauf der Ereignisse und versprach, in Zukunft vorsichtiger vorzugehen. Trotzdem will er am Konzept des Reflection-Tunings festhalten und es weiterentwickeln. Shumer kündigte zudem an, das Modell weiterhin zu testen und sicherzustellen, dass alle Optionen ausgeschöpft werden.

OthersideAI plant bereits die Veröffentlichung eines noch größeren Modells auf Basis von LLaMA 3.1 450B, das laut Shumer nicht nur das beste Open-Source-Modell, sondern auch das beste Sprachmodell überhaupt sein soll. Ob dies tatsächlich gelingt, bleibt abzuwarten.

Ausblick

Der Fall von Reflection 70B zeigt, wie schnell Hype und Realität in der KI-Branche aufeinanderprallen können. Groß angekündigt als das beste Open-Source-Modell, entpuppte sich Reflection 70B als Enttäuschung. Die Kontroverse verdeutlicht zudem, wie wichtig eine unabhängige und sorgfältige Überprüfung von KI-Fortschritten ist, bevor überzogene Erwartungen geweckt werden.

Trotz des Rückschlags bleibt die Idee hinter Reflection-Tuning interessant. Wenn es Matt Shumer gelingt, die Methode weiterzuentwickeln und zu verbessern, könnte sie tatsächlich einen Schritt nach vorn in der KI-Forschung bedeuten. Bis dahin ist jedoch Vorsicht geboten, was die Ankündigungen neuer "bahnbrechender" KI-Modelle angeht.

Profilbild AI Caramba

Short

  • Reflection 70B von OthersideAI sollte das weltweit leistungsstärkste Open-Source-KI-Modell werden, enttäuschte jedoch in unabhängigen Tests.
  • Matt Shumer, der Entwickler, räumte Fehler in der Entwicklung ein und kündigte an, weiter am Reflection-Tuning-Konzept zu arbeiten.
  • Das Modell basiert auf einer Methode, die KI-Modelle ihre eigenen Fehler erkennen und korrigieren lässt, jedoch erfüllte es die hohen Erwartungen nicht.
  • Unabhängige Tests und Nutzerberichte brachten Zweifel an den Versprechungen und der Leistungsfähigkeit von Reflection 70B auf.
  • Die Kontroverse zeigt, wie wichtig unabhängige Überprüfungen und realistische Erwartungen in der KI-Branche sind.

Kommentieren, diskutieren und teilen!