أطلقت xAI ميزة Grok Custom Voices في 2 مايو عبر مدونتها الرسمية، حيث يحتاج المستخدمون فقط إلى تسجيل نحو دقيقة واحدة من الصوت الطبيعي في لوحة تحكم xAI، لتقوم الأنظمة بمعالجة ذلك في غضون دقيقتين وإخراج نموذج صوتي مخصص يمكن استخدامه في واجهة برمجة تطبيقات TTS وVoice Agent API. كما تم إطلاق نموذج Grok 4.3 بالتزامن، إلى جانب واجهة Voice Library التي تجمع جميع موارد الصوت. وقد صُممت Custom Voices أيضًا بآلية تحقق على مرحلتين لمنع نسخ صوت الآخرين.
الميزات: تسجيل لمدة دقيقة واحدة، وتوليد خلال دقيقتين، وتكامل مع TTS وVoice Agent API
يُسجل المستخدمون نحو دقيقة واحدة من الصوت الطبيعي في لوحة تحكم xAI، وتُنجز عملية الخلفية على التوالي: (1) التحقق من الهوية، (2) معالجة الصوت، (3) إخراج النموذج. خلال إجمالي دقيقتين، يمكن الحصول على نموذج صوتي جاهز للاستخدام. ترث Custom Voices جميع قدرات TTS، بما في ذلك speech tags (وسوم الصوت)، وإخراج متعدد اللغات، وكذلك بث REST وWebSocket؛ ويمكن استخدامها مباشرةً مع نقاط نهاية TTS لدى xAI أو Voice Agent API لإجراء محادثات فورية مع وكيل (agent).
أما Voice Library التي تم إطلاقها بالتزامن، فهي واجهة في لوحة تحكم xAI لإدارة موارد الصوت بشكل موحد، تتيح التصفح والمعاينة والإدارة لجميع موارد الصوت التي يصنعها المستخدمون وأصواتهم المُعدة مسبقًا، بما يمنع تشتتها عبر واجهات متعددة. يوفر مكتبة الأصوات المُعدة مسبقًا أكثر من 80 صوتًا، ويدعم 28 لغة.
التحقق على مرحلتين من الهوية: لمنع نسخ صوت الآخرين
قبل توليد الصوت، تضع Custom Voices مرحلتين من التحقق من الهوية. المرحلة الأولى: يقرأ المستخدم جملة تحقق، ثم يقوم النظام بالنسخ الفوري لذلك المقطع الصوتي. المرحلة الثانية: يقوم النظام بحساب speaker embedding (متجهات سمات المتحدث) بشكل منفصل من جملة التحقق ومن التسجيل الكامل، ثم يقارن ما إذا كانا ينتميان إلى الشخص نفسه. لن يتم الانتقال إلى عملية إخراج نموذج الصوت إلا بعد اجتياز المرحلتين.
تصرّح xAI بوضوح بأن المستخدمين لا يمكنهم نسخ الصوت باستخدام ملفات تسجيل موجودة مسبقًا، كما لا يمكنهم نسخ صوت شخص آخر. تستبعد هذه الآلية سيناريو «الحصول على تسجيل لحفل عام لشخص آخر ثم نسخه مباشرةً»، وتحصّر نطاق النسخ في «مدخل واحد يتم فيه تسجيل المستخدم لنفسه في الوقت الفعلي». وبالنسبة للمهتمين بمسألة إساءة استخدام توليد الصوت بالذكاء الاصطناعي (مثل الاحتيال عبر الهاتف والتعليق الصوتي غير المصرح به)، فإن هذه الآلية تُعد ردًا ملموسًا من xAI على مخاوف التزييف.
ملاحظات لاحقة: إطلاق متزامن مع Grok 4.3 وتوسيع الإيقاع في Voice Library
تم إطلاق Custom Voices ونموذج Grok 4.3 في اليوم نفسه، وربطت xAI «ترقية النموذج + استكمال أدوات الصوت بالكامل» في الموجة نفسها من الإعلانات. أما نقطة الملاحظة التالية فهي وتيرة توسيع مكتبة الأصوات المُعدة مسبقًا في Voice Library من 80 صوتًا إلى ما هو أعلى، وما إذا كانت خريطة اللغات ذات إصدار 28 لغة يمكن أن تغطي بشكل أوسع اللغات الصغيرة مثل الصينية التقليدية. كما تتمثل نقطة الملاحظة الأخرى في نشر حالات تبنّي Voice Agent API بشكل محدد، مع أمثلة تكامل خاصة بسيناريوهات مثل أتمتة خدمة العملاء وإنتاج البودكاست وخدمة العملاء متعددة اللغات.
ظهرت هذه المقالة xAI Grok تطلق Custom Voices: نسخ خلال دقيقتين والتحقق على مرحلتين من الهوية لأول مرة على موقع 鏈新聞 ABMedia.
مقالات ذات صلة
هت 8 توقع عقدًا بقيمة 9.8 مليارات دولار لمركز بيانات للذكاء الاصطناعي لمدة 15 عامًا، وسهمها يقفز 36% في تعاملات ما قبل افتتاح البورصة
استحوذت Core Scientific على مُعدّن بيتكوين Polaris مقابل 421 مليون دولار، لتوسّع عمليات مراكز بيانات الذكاء الاصطناعي
هت 8 تقفل على 16.8 مليار دولار من إيرادات مراكز بيانات الذكاء الاصطناعي، وتُصدر 3,300 BTC في الربع الأول
يطلق بروفيت سوق تنبؤات مدعومًا بالذكاء الاصطناعي مع شريحة تداول حي بقيمة 10,000 دولار اليوم
أطلقت WorldClaw WorldRouter مع WLFI، وتطرح أكثر من 300 نموذج ذكاء اصطناعي بتكلفة أقل بنسبة 30%
قفز ربح Kakao Pay في الربع الأول بنسبة 141% مع نمو خدماتها المالية