xAI 1 июля объявила о запуске бета-версии Voice Agent Builder — полностью бескодовой платформы для создания AI-голосовых агентов, позволяющей пользователям за 2 минуты с помощью подсказок на естественном языке создавать корпоративные голосовые агенты. Платформа использует тесно интегрированный с Grok Voice сквозной единый голосовой путь Speech-to-Speech, превосходящий GPT в бенчмарках.
(Источник: сайт xAI)
Согласно официальному заявлению xAI, Grok Voice Think Fast 1.0 занял первое место в рейтинге голосовых бенчмарков τ-voice Bench, опередив Google Gemini 3.1 Flash Live и OpenAI GPT Realtime 1.5 по показателям скорости реакции и способности к рассуждению.
xAI поясняет, что Grok Voice обучался на реальных и специально разработанных «самых сложных» сценариях звонков, включающих низкокачественный шум телефона, сильный акцент, прерывание пользователем и нечеткие инструкции, а также нативно поддерживает более 25 языков.
По официальному заявлению xAI, традиционные корпоративные AI-голосовые службы поддержки должны соединять три независимые системы: распознавание речи в текст (STT), большую языковую модель (LLM) и синтез текста в речь (TTS). Такая сборная архитектура увеличивает многозвенную задержку и повышает уровень ошибок и эксплуатационные расходы.
Voice Agent Builder использует тесно интегрированный с Grok Voice сквозной единый голосовой путь Speech-to-Speech, при котором весь процесс обработки речи не разбивается на этапы, что снижает задержку и уменьшает ошибки соединения.
Согласно официальным спецификациям xAI, четыре основных функциональных модуля Voice Agent Builder выглядят следующим образом:
База знаний (Knowledge Base): Поддерживает загрузку форматов Word, Excel, PDF, JSON и других, может быть организована в коллекции (Collections), доступные для совместного использования агентами, обеспечивая согласованность спецификаций продуктов и политик.
Подключение инструментов и коннекторы (Tools & Connectors): Встроенные: Google/Outlook календарь, веб-поиск, поиск в X (Twitter) и Notion; поддерживает перевод на живого оператора, завершение звонка и мгновенные уведомления команды.
Голос и телефония (Voice & Telephony): Предоставляет более 80 встроенных голосов; поддерживает клонирование фирменного голоса всего за 2 минуты аудио; можно бесплатно получить номер телефона от xAI или подключить существующую АТС через SIP.
Прозрачное ценообразование (Pricing): Плата за API вычислений составляет 0,05 доллара за минуту, без дополнительной платы за платформу; при использовании номера телефона, предоставленного xAI, взимается дополнительная плата за связь в размере 0,01 доллара за минуту.
Согласно официальному заявлению xAI, Voice Agent Builder для корпоративных пользователей имеет встроенные механизмы мониторинга (Observability) и защитные барьеры (Guardrails): каждый звонок автоматически записывается и генерируется расшифровка; администраторы могут в любое время просматривать записи использования инструментов AI в разговоре; можно устанавливать строгие границы диалога, например, запрещать AI озвучивать номера кредитных карт клиентов или обсуждать с пользователями непрофильные политические темы.
xAI в своем официальном заявлении сказала: «Судить на слух точнее, чем смотреть на бенчмарки — создайте агента, позвоните ему с самым сложным рабочим процессом и проверьте».
Согласно официальному заявлению xAI, плата за API вычислений составляет 0,05 доллара за минуту, без дополнительной платы за платформу; если использовать бесплатный номер телефона, предоставленный xAI, то взимается дополнительная плата за связь в размере 0,01 доллара за минуту.
Согласно официальным данным xAI, Grok Voice Think Fast 1.0 в бенчмарке τ-voice Bench превзошел Google Gemini 3.1 Flash Live и OpenAI GPT Realtime 1.5, заняв первое место в рейтинге по показателям скорости реакции и способности к рассуждению.
Согласно официальному заявлению xAI, бета-версия Voice Agent Builder уже официально запущена в xAI Console и доступна для тестирования.
Связанные новости
Запущен механизм ончейн-управления Solana: для голосования предложениям требуется поддержка 15% застейканных средств.
Claude Sonnet 5 запущен, цена API на 60% дешевле, чем Opus.
6 AI-браузеров попались на уловку с «2+2=5» и полностью раскрыли SSH-сертификаты
Meituan LongCat-2.0 с открытым исходным кодом: 1,6 триллиона параметров, не требует GPU NVIDIA