Ein Nvidia Roboter spricht mit einem Menschen

Nvidia PersonaPlex-7B: KI spricht und hört gleichzeitig

Das neue Open-Source-Modell ermöglicht natürliche Dialoge in Echtzeit ohne störende Verzögerungen oder Pausen.

Andreas Becker Nano Banana
Ein Nvidia Roboter spricht mit einem Menschen

Nvidia hat mit PersonaPlex-7B-v1 ein neues Open-Source-Sprachmodell veröffentlicht, das zeitgleich zuhören und sprechen kann. Die auf sieben Milliarden Parametern basierende KI ermöglicht natürliche Dialoge ohne spürbare Verzögerungen und reagiert in Echtzeit auf Unterbrechungen.

Echte zeitgleiche Kommunikation

Bisherige Sprachassistenten arbeiten meist nacheinander. Der Nutzer spricht, das System verarbeitet die Eingabe und antwortet erst danach. Dieser Vorgang kostet Zeit und sorgt für unnatürliche Gesprächspausen.

PersonaPlex nutzt stattdessen eine sogenannte Full-Duplex-Architektur. Das Modell verarbeitet Audioeingaben kontinuierlich und parallel zur eigenen Sprachausgabe. Fällt der Nutzer der KI ins Wort, reagiert diese sofort und passt ihre Antwort dem neuen Kontext an.

Twitter Beitrag - Cookies links unten aktivieren.

Architektur und Rollenspiel

Technisch basiert Nvidias Lösung auf der bekannten Moshi-Architektur. Das System verarbeitet Audiosignale direkt mit einer Abtastrate von 24 Kilohertz, ohne sie vorher zwingend in Text umzuwandeln. Für das Training nutzte der Hersteller eine Mischung aus echten menschlichen Dialogen und synthetisch erzeugten Rollenspielen.

Das Modell verwendet sogenannte Hybrid-Prompts für die Konfiguration. Diese Textvorgaben definieren sowohl die akustische Stimme als auch die inhaltliche Rolle der KI. Laut Datenblatt lassen sich so flexibel verschiedene Charaktere wie Support-Agenten oder Fachberater erstellen.

In der Praxis muss sich zeigen, wie stabil das System lange Gesprächsverläufe meistert. Bei Benchmark-Tests zur Reaktionszeit und bei gezielten Unterbrechungen erreicht die Software jedoch bereits Spitzenwerte. Ein direkter Sprecherwechsel erfolgt dort oft in Bruchteilen einer Sekunde.

Anzeige

Lokal ausführbar und offen

Nvidia stellt die Modellgewichte und den Programmcode unter offenen Lizenzen bereit. Entwickler finden die entsprechenden Dateien auf Plattformen wie Hugging Face und GitHub. Dadurch lässt sich die Software leicht anpassen und in bestehende Projekte integrieren.

Mit sieben Milliarden Parametern ist das Sprachmodell verhältnismäßig kompakt gebaut. Es lässt sich daher auf lokaler Hardware mit ausreichend Grafikspeicher betreiben. Das schont die Privatsphäre, da keine sensiblen Sprachaufzeichnungen auf externe Server fließen. Dieser lokale Ansatz macht die Technologie zu einer interessanten Option für datenschutzkritische Anwendungen.

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.