Moshi aus Frankreich

Die KI, die schneller spricht als du denkst

Worum geht es?

Stell dir vor, du könntest dich mit deiner KI unterhalten wie mit einem Freund - natürlich, flüssig und ohne Verzögerung. Das französische KI-Labor Kyutai macht es mit Moshi möglich.

News

Moshi: Der KI-Assistent, der (fast) alles kann

Das französische KI-Start-up Kyutai hat in Paris seinen neuen KI-Assistenten Moshi vorgestellt. Was Moshi so besonders macht? Er ist der erste öffentlich zugängliche KI-Assistent mit Sprachfähigkeiten, der natürliche Gespräche in Echtzeit führen kann. Ja, du hast richtig gelesen: Echtzeit! Keine lästigen Pausen mehr, während die KI deine Anfrage verarbeitet. Moshi hört zu und antwortet fast so schnell wie ein Mensch.

Die Technologie hinter Moshi: Audio Language Models

Wie schafft Moshi das? Die Antwort liegt in einem neuen Ansatz, den Kyutai als "Audio Language Model" bezeichnet. Statt Sprache in Text umzuwandeln, komprimiert Moshi Audiodaten und behandelt sie wie Pseudowörter. Dadurch kann er direkt mit Audiodaten arbeiten und Sprache vorhersagen. Das macht ihn zu einem nativ multimodales Modell, ähnlich wie GPT-4o von OpenAI (das allerdings noch nicht veröffentlicht wurde).

Moshis Training: Von YouTube-Videos bis zu menschlichen Bewegungsdaten

Um Moshi zu trainieren, hat Kyutai verschiedene Datenquellen genutzt, darunter menschliche Bewegungsdaten und YouTube-Videos. Zuerst wurde ein reines Textmodell namens Helium trainiert, dann folgte ein kombiniertes Training mit Text- und Audiodaten. Für die Feinabstimmung der Konversation wurden synthetische Dialoge verwendet.

Moshis Stimme: Alice, die Sprachsynthese-Expertin

Damit Moshi eine konsistente Stimme bekommt, hat Kyutai mit einer Sprecherin namens Alice zusammengearbeitet. Sie hat Monologe und Dialoge in verschiedenen Stilen aufgenommen, die dann für das Training eines Sprachsynthesesystems verwendet wurden.

Moshi: Die Zukunft der Kommunikation mit Maschinen?

Kyutai sieht in Moshi ein großes Potenzial, die Art und Weise, wie wir mit Maschinen kommunizieren, zu verändern. Besonders im Bereich der Zugänglichkeit für Menschen mit Behinderungen sieht das Unternehmen vielversprechende Anwendungsmöglichkeiten.

Moshi: Jetzt testen und bald Open Source

Du willst Moshi selbst ausprobieren? Die Demo ist bereits online verfügbar. In den kommenden Monaten will Kyutai die Technologie als Open Source veröffentlichen, damit Entwickler und Forscher sie untersuchen, anpassen und erweitern können. Ein Paper soll ebenfalls folgen.

Meine Meinung

Ist Moshi wirklich so revolutionär?

Obwohl Moshi zweifellos beeindruckend ist, sollten wir nicht vergessen, dass er immer noch auf einem relativ kleinen Sprachmodell mit 7 Milliarden Parametern basiert. Das bedeutet, dass er im Dialog die üblichen Einschränkungen kleiner Modelle aufweist. Dennoch sind seine Sprachfähigkeiten und die Geschwindigkeit vielversprechend und lassen erahnen, was möglich sein wird, wenn leistungsfähigere und größere Modelle mit dieser Technologie zum Einsatz kommen.

Darüber hinaus ist es erfreulich, dass eine weitere vielversprechende KI aus Europa kommt.

Was ist deine Meinung?

Diskutiere hier oder auch auf Twitter diesen Beitrag (Cookies müssen aktiviert sein):

Irgendwie komisch, wenn die KI schneller antwortet, als man selbst denken kann. Ich bin gespannt, wie sich die europäische KI gegen OpenAI schlägt. #moshi https://t.co/tX8VE4XUqt pic.twitter.com/D3u2Yx6xlX
— AI Caramba (@AyCarambaAI) July 6, 2024

Short

Moshi ist der erste öffentlich zugängliche KI-Assistent mit Sprachfähigkeiten, der natürliche Gespräche führen kann.
Die Architektur von Moshi basiert auf einem neuen Ansatz
Moshi hat eine theoretische Latenz von nur 160 Millisekunden, in der Praxis liegt sie zwischen 200 und 240 Millisekunden.
In den kommenden Monaten will Kyutai die Technologie als Open Source veröffentlichen, damit Entwickler und Forscher sie untersuchen, anpassen und erweitern können.