xAI veröffentlicht Voice Agent Builder für KI-Sprachassistenten
Die neue No-Code-Plattform erstellt einsatzbereite Sprach-KIs in unter zwei Minuten. Das System verarbeitet Sprache dabei ohne verzögernde Zwischenschritte.

xAI hat den Voice Agent Builder in einer Beta-Version veröffentlicht. Die No-Code-Plattform ermöglicht es Unternehmen, funktionale KI-Sprachassistenten auf Basis von Grok Voice in unter zwei Minuten einzurichten. Das System verarbeitet Sprache nativ und reagiert in weniger als einer Sekunde.
Direkte Audioverarbeitung
Herkömmliche Sprachassistenten leiten Anrufe oft durch drei separate Schnittstellen für Spracherkennung, Textanalyse und Sprachausgabe. Jeder Hop erhöht die Latenz und die Fehleranfälligkeit. xAI umgeht diesen Umweg. Grok Voice verarbeitet Audioeingaben nativ und antwortet direkt.
Das Modell ist laut Entwicklern auf reale, unsaubere Anrufe trainiert. Es verarbeitet Hintergrundgeräusche, starke Akzente und plötzliche Unterbrechungen durch den Anrufer. Die Plattform unterstützt 25 Sprachen und bietet 80 integrierte Stimmen. Alternativ genügt ein zweiminütiger Audioschnipsel, um eine firmeneigene Markenstimme zu klonen.
Twitter Beitrag - Cookies links unten aktivieren.
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice.
— xAI (@xai) July 1, 2026
Available today at $0.05 / min.https://t.co/kUkF7zqvfR pic.twitter.com/OCIq1oDYar
Echtzeitzugriff auf Datenbanken und Software
Nutzer laden Dokumente wie PDFs, Excel-Listen oder JSON-Dateien direkt in die Plattform. Grok liest diese Informationen während des Telefonats aus, um Fragen zu beantworten.
Der Assistent stößt über Schnittstellen auch externe Aktionen an. Er greift auf Dienste wie Google Calendar, Linear, Notion oder eigene interne Systeme via Model Context Protocol (MCP) zu. Das Modell bucht so selbstständig Termine, prüft den Bestellstatus oder veranlasst Rückerstattungen.
Gerät Grok an seine Grenzen oder berührt ein Thema die vorher definierten Sicherheitsvorgaben, leitet die Software den Anruf nahtlos an einen menschlichen Mitarbeiter weiter.
Anzeige
Benchmark und Preisgestaltung
Im hauseigenen Testaufbau »τ-voice Bench« erreicht das Modell Grok Voice Think Fast 1.0 eine Erfolgsquote von 67,3 Prozent. Gemini 3.1 Flash Live kommt im selben Test auf 43,8 Prozent, GPT Realtime 1.5 auf 35,3 Prozent.
Quelle: xAI
xAI berechnet 5 US-Cent pro Minute Audio. Dieser Preis deckt die Nutzung der Stimmen und der Plattform ab. Jedes Konto erhält eine kostenlose Telefonnummer für den Start. Bei produktiver Nutzung der bereitgestellten Nummer kostet die Telefonie einen weiteren US-Cent pro Minute. Unternehmen können ihre bestehenden Nummern über das SIP-Protokoll einbinden.
Der Dienst erfüllt laut eigenen Angaben Sicherheitsstandards wie SOC 2 und die Vorgaben der europäischen DSGVO.
