xAI pada 1 Juli mengumumkan peluncuran Voice Agent Builder Beta, platform pembuatan agen suara AI tanpa kode sama sekali yang memungkinkan pengguna membangun agen suara tingkat perusahaan hanya dalam 2 menit melalui perintah bahasa alami; platform ini menggunakan jalur suara tunggal end-to-end Speech-to-Speech yang terintegrasi erat dengan Grok Voice, dengan tolok ukur yang melampaui GPT.
(Sumber: Situs web xAI)
Menurut pengumuman resmi xAI, Grok Voice Think Fast 1.0 menempati peringkat teratas dalam tolok ukur suara τ-voice Bench, secara langsung melampaui Google Gemini 3.1 Flash Live dan OpenAI GPT Realtime 1.5 dalam dua indikator: kecepatan respons dan kemampuan penalaran.
xAI menjelaskan bahwa Grok Voice dilatih menggunakan skenario panggilan nyata yang dirancang sebagai "yang paling sulit", mencakup noise telepon berkualitas rendah, aksen kuat, interupsi pengguna di tengah jalan, dan perintah yang tidak jelas, serta mendukung secara native lebih dari 25 bahasa.
Penjelasan resmi xAI, sistem layanan pelanggan suara AI perusahaan tradisional harus menghubungkan tiga sistem independen: Speech-to-Text (STT), Large Language Model (LLM), dan Text-to-Speech (TTS). Arsitektur yang dirangkai ini meningkatkan latensi multi-hop, serta meningkatkan tingkat kesalahan dan biaya operasional.
Voice Agent Builder mengadopsi jalur suara tunggal end-to-end Speech-to-Speech yang terintegrasi erat dengan Grok Voice, seluruh proses pemrosesan suara tidak terputus-putus, yang bertujuan mengurangi latensi dan meminimalkan kesalahan perangkaian.
Berdasarkan penjelasan fitur resmi xAI, spesifikasi empat modul fitur inti Voice Agent Builder adalah sebagai berikut:
Basis Pengetahuan (Knowledge Base): Mendukung unggah format Word, Excel, PDF, JSON, dll., dapat diatur menjadi Collections yang dibagi antar agen, memastikan konsistensi spesifikasi produk dan kebijakan.
Integrasi Alat (Tools & Connectors): Terintegrasi dengan Kalender Google/Outlook, Pencarian Web, Pencarian X (Twitter), dan Notion; mendukung transfer ke agen manusia, mengakhiri panggilan, dan notifikasi tim real-time.
Suara & Telepon (Voice & Telephony): Menyediakan lebih dari 80 suara bawaan; mendukung kloning suara merek hanya dengan audio 2 menit; dapat memperoleh nomor telepon gratis dari xAI, atau menghubungkan sistem PBX yang ada melalui SIP.
Harga Transparan (Pricing): Biaya API komputasi 0,05 dolar AS per menit, tanpa biaya platform tambahan; saat menggunakan nomor telepon yang disediakan xAI, dikenakan biaya komunikasi tambahan 0,01 dolar AS per menit.
Menurut pengumuman resmi xAI, Voice Agent Builder dilengkapi dengan mekanisme pemantauan (Observability) dan pagar pengaman (Guardrails) untuk pengguna tingkat perusahaan: setiap panggilan secara otomatis direkam dan menghasilkan transkrip; administrator dapat kapan saja melihat catatan alat yang digunakan AI selama panggilan; dan dapat menetapkan batas percakapan yang ketat, misalnya melarang AI membaca nomor kartu kredit pelanggan, atau melarang diskusi topik politik yang tidak relevan dengan pengguna.
xAI dalam pengumuman resminya menyatakan: "Menilai dengan telinga lebih akurat daripada melihat tolok ukur—bangunlah agen, dan cobalah menelepon dengan alur kerja paling sulit Anda."
Menurut pengumuman resmi xAI, biaya API komputasi adalah 0,05 dolar AS per menit, tanpa biaya platform tambahan; jika menggunakan nomor telepon gratis yang disediakan xAI, dikenakan biaya komunikasi tambahan 0,01 dolar AS per menit.
Menurut pengumuman resmi xAI, Grok Voice Think Fast 1.0 melampaui Google Gemini 3.1 Flash Live dan OpenAI GPT Realtime 1.5 dalam tolok ukur τ-voice Bench, menempati peringkat teratas dalam dua indikator: kecepatan respons dan kemampuan penalaran.
Menurut pengumuman resmi xAI, Voice Agent Builder Beta telah resmi diluncurkan di xAI Console dan terbuka untuk uji coba.
Berita Terkait
Mekanisme tata kelola on-chain Solana diluncurkan, proposal memerlukan dukungan staking 15% untuk dapat masuk ke pemungutan suara.
Claude Sonnet 5 diluncurkan, harga API 60% lebih murah dari Opus
6 browser AI tertipu oleh game '2+2=5', seluruh kredensial SSH bocor
Meituan LongCat-2.0 sumber terbuka: 1,6 triliun parameter tanpa GPU NVIDIA