Ein Voice Stimme von Elon Musk

xAI veröffentlicht Voice Agent Builder für KI-Sprachassistenten

Die neue No-Code-Plattform erstellt einsatzbereite Sprach-KIs in unter zwei Minuten. Das System verarbeitet Sprache dabei ohne verzögernde Zwischenschritte.

Andreas Becker GPT-Images-2.0
Ein Voice Stimme von Elon Musk

xAI hat den Voice Agent Builder in einer Beta-Version veröffentlicht. Die No-Code-Plattform ermöglicht es Unternehmen, funktionale KI-Sprachassistenten auf Basis von Grok Voice in unter zwei Minuten einzurichten. Das System verarbeitet Sprache nativ und reagiert in weniger als einer Sekunde.

Direkte Audioverarbeitung

Herkömmliche Sprachassistenten leiten Anrufe oft durch drei separate Schnittstellen für Spracherkennung, Textanalyse und Sprachausgabe. Jeder Hop erhöht die Latenz und die Fehleranfälligkeit. xAI umgeht diesen Umweg. Grok Voice verarbeitet Audioeingaben nativ und antwortet direkt.

Das Modell ist laut Entwicklern auf reale, unsaubere Anrufe trainiert. Es verarbeitet Hintergrundgeräusche, starke Akzente und plötzliche Unterbrechungen durch den Anrufer. Die Plattform unterstützt 25 Sprachen und bietet 80 integrierte Stimmen. Alternativ genügt ein zweiminütiger Audioschnipsel, um eine firmeneigene Markenstimme zu klonen.

Twitter Beitrag - Cookies links unten aktivieren.

Echtzeitzugriff auf Datenbanken und Software

Nutzer laden Dokumente wie PDFs, Excel-Listen oder JSON-Dateien direkt in die Plattform. Grok liest diese Informationen während des Telefonats aus, um Fragen zu beantworten.

Der Assistent stößt über Schnittstellen auch externe Aktionen an. Er greift auf Dienste wie Google Calendar, Linear, Notion oder eigene interne Systeme via Model Context Protocol (MCP) zu. Das Modell bucht so selbstständig Termine, prüft den Bestellstatus oder veranlasst Rückerstattungen.

Gerät Grok an seine Grenzen oder berührt ein Thema die vorher definierten Sicherheitsvorgaben, leitet die Software den Anruf nahtlos an einen menschlichen Mitarbeiter weiter.

Anzeige

Benchmark und Preisgestaltung

Im hauseigenen Testaufbau »τ-voice Bench« erreicht das Modell Grok Voice Think Fast 1.0 eine Erfolgsquote von 67,3 Prozent. Gemini 3.1 Flash Live kommt im selben Test auf 43,8 Prozent, GPT Realtime 1.5 auf 35,3 Prozent.

Quelle: xAI

xAI berechnet 5 US-Cent pro Minute Audio. Dieser Preis deckt die Nutzung der Stimmen und der Plattform ab. Jedes Konto erhält eine kostenlose Telefonnummer für den Start. Bei produktiver Nutzung der bereitgestellten Nummer kostet die Telefonie einen weiteren US-Cent pro Minute. Unternehmen können ihre bestehenden Nummern über das SIP-Protokoll einbinden.

Der Dienst erfüllt laut eigenen Angaben Sicherheitsstandards wie SOC 2 und die Vorgaben der europäischen DSGVO.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.