Tülu 3 405B vs. DeepSeek V3: Wer hat die Nase vorn?
Trotz weniger Parameter erreicht Tülu 3 405B ähnliche oder bessere Ergebnisse als das riesige DeepSeek V3-Modell.

Flux Schnell | All-AI.de
EINLEITUNG
Das Allen Institute for AI (AI2) hat mit der Veröffentlichung von Tülu 3 405B einen bedeutenden Fortschritt in der Entwicklung offener KI-Modelle erzielt. Dieses Modell mit 405 Milliarden Parametern übertrifft in vielen Benchmarks sowohl DeepSeek V3 als auch GPT-4o und setzt neue Maßstäbe für Open-Source-KI.
NEWS
Die Entwicklung von Tülu 3 405B
Nach dem Erfolg von Tülu 3 im November hat AI2 die Tülu 3-Trainingsmethodik auf das Llama-405B-Basismodell angewendet. Das Training umfasste eine sorgfältige Datenaufbereitung, überwachte Feinabstimmung (SFT) mit ausgewählten Eingabe-Antwort-Paaren und die Anwendung von Direct Preference Optimization (DPO) auf Präferenzdaten. Ein zentrales Element war das Reinforcement Learning from Verifiable Rewards (RLVR), ein neuartiger Ansatz, der die Leistung in Bereichen wie Mathematik und Befolgung von Anweisungen verbessert.
Leistungsfähigkeit und Vergleich mit DeepSeek V3
Tülu 3 405B zeigt in verschiedenen Benchmarks eine überlegene oder vergleichbare Leistung im Vergleich zu DeepSeek V3 und GPT-4o. Besonders hervorzuheben ist die Verbesserung in mathematischen Aufgaben, die durch den RLVR-Ansatz erzielt wurde. Während DeepSeek V3 mit 671 Milliarden Parametern arbeitet, setzt Tülu 3 405B auf eine effizientere Architektur, die mit weniger Parametern ähnliche oder bessere Ergebnisse erzielt.
Technische Herausforderungen und Lösungen
Die Skalierung auf 405 Milliarden Parameter stellte erhebliche technische Anforderungen. Das Training erforderte den parallelen Einsatz von 256 GPUs. Für das Inferenzverfahren wurde das Modell mit vLLM und 16-facher Tensor-Parallelität implementiert, während die restlichen GPUs für das Training genutzt wurden. Trotz Herausforderungen wie NCCL-Timeouts und Synchronisationsproblemen konnte das Training erfolgreich abgeschlossen werden.
AUSBLICK
Immer mehr gute Modelle!
Mit Tülu 3 405B demonstriert AI2 die Skalierbarkeit und Effektivität offener Trainingsmethoden für große Sprachmodelle. Dieses Modell stellt einen bedeutenden Schritt in Richtung leistungsfähiger und zugänglicher Open-Source-KI dar. Zukünftige Arbeiten könnten die Erforschung größerer Wertmodelle oder alternativer RL-Algorithmen umfassen, um die Leistung weiter zu steigern.
UNTERSTÜTZUNG
Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke.
KURZFASSUNG
- Das Allen Institute for AI (AI2) hat mit Tülu 3 405B ein leistungsstarkes Open-Source-KI-Modell vorgestellt, das in Benchmarks mit DeepSeek V3 und GPT-4o konkurriert.
- Das Modell basiert auf der Llama-405B-Architektur und nutzt optimierte Trainingsmethoden wie Direct Preference Optimization (DPO) und Reinforcement Learning from Verifiable Rewards (RLVR).
- Tülu 3 405B erreicht mit nur 405 Milliarden Parametern eine herausragende Effizienz, während DeepSeek V3 auf 671 Milliarden Parameter setzt.
- Das Training erforderte 256 GPUs mit vLLM-Optimierung und Tensor-Parallelität, um die Skalierung erfolgreich zu bewältigen.
- Das Modell könnte die Zukunft der Open-Source-KI prägen und neue Standards für öffentlich zugängliche Sprachmodelle setzen.