أعلنت OpenAI في 7 مايو (بالتوقيت الأمريكي) خلال مؤتمر للمطورين عن ثلاث نماذج جديدة للّغة الصوتية Realtime: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، وجميعها متاحة للمطورين عبر Realtime API. ووضّح إعلان OpenAI الرسمي أن GPT-Realtime-2 هو أول نموذج صوتي لدى OpenAI يتمتع بقدرات استدلال بمستوى GPT-5، قادر على إجراء استدلال فوري أثناء محادثات صوتية، واستدعاء الأدوات، ومعالجة التصحيحات، مع الحفاظ على إيقاع محادثة طبيعي.
GPT-Realtime-2: رفع context من 32K إلى 128K وإتاحة ضبط قوة الاستدلال على خمس درجات
تشمل الترقيات الأساسية في GPT-Realtime-2:
نافذة context: من 32K إلى 128K tokens
قوة الاستدلال قابلة للتعديل: minimal وlow وmedium وhigh وxhigh (خمس درجات)
اختبار Big Bench Audio: عند اختيار high تبلغ نسبة الاستدلال 96.6%، بينما كانت نسبة سلفه GPT-Realtime-1.5 هي 81.4%
التزام تعليمات Audio MultiChallenge: عند اختيار xhigh تبلغ نسبة الاستدلال 48.5%، بينما كانت نسبة سلفه 34.7%
يتيح سياق أكبر وقوة استدلال قابلة للضبط للمطورين التبديل بين «الرخيص والسريع» و«التفكير العميق» وفقًا لطبيعة السيناريو—إذ يمكن لخدمة عملاء بسيطة استخدام وضع minimal للتحكم في التكاليف، بينما تُحوّل المهام المعقدة إلى xhigh مقابل جودة استدلال بمستوى GPT-5.
وفي الوقت نفسه، تم إصدار نموذجين مخصصين: Translate للترجمة عبر اللغات، وWhisper للنسخ الفوري.
توزيع الأدوار للنماذج الثلاثة في هذه الجولة:
GPT-Realtime-Translate: ترجمة صوتية فورية متعددة اللغات، مع دعم 70 لغة إدخال و13 لغة إخراج
GPT-Realtime-Whisper: نسخ متدفق منخفض التأخير، وإخراج النص أثناء الإلقاء، ومناسب للتسميات الفورية التوضيحية، وسجلات الاجتماعات، ومحاضر الدروس كلمة بكلمة
GPT-Realtime-2: وكيل محادثات كامل، قادر على الاستدلال، واستخدام الأدوات، وتنفيذ الإجراءات
يُعد Translate وWhisper نماذج متخصصة لتطبيقات صوتية محددة—إذ تكون حساسية التأخير والتكلفة أعلى في الترجمة والنسخ مقارنة بالمحادثة العامة، ويمكن لنماذج مستقلة تحسين مؤشرات كل منهما.
التسعير: GPT-Realtime-2 بسعر 32 دولارًا لكل مليون مدخلات صوتية، و64 دولارًا لكل مليون مخرجات
يتضمن هيكل تسعير النماذج الثلاثة:
GPT-Realtime-2: 32 دولارًا لكل مليون مدخلات صوتية، و0.40 دولارًا لمدخلات cached، و64 دولارًا للمخرجات
GPT-Realtime-Translate: 0.034 دولارًا لكل دقيقة
GPT-Realtime-Whisper: 0.017 دولارًا لكل دقيقة
الأحداث التفصيلية التي يمكن متابعتها لاحقًا: الاستخدام الفعلي لـ GPT-Realtime-2 كـ voice agent في بيئات الإنتاج، ومدى تأثيره عبر الاستبدال (cannibalization) مقارنةً بنماذج الصوت الحالية من GPT-4o، وردود فعل المنافسين مثل Anthropic وGoogle.
أول ظهور لهذه المقالة التي تعرّف GPT-Realtime-2 من OpenAI: إدخال استدلال GPT-5 في voice agent، ورفع السعة السياقية إلى 128K، كان في موقع ABMedia ضمن سلسلة أخبار السلسلة.
Related News
أعلنت NVIDIA عن Nemotron 3 Nano Omni مفتوح المصدر متعدد الوسائط
سيُقام مؤتمر OpenAI DevDay 2026 في 29/9 بمدينة سان فرانسيسكو
افتتح OpenAI دورة ChatGPT Futures: حصل 26 طالباً من الدفعة الأولى على منح بقيمة 10,000 دولار، عبر أكثر من 20 جامعة
أعلنت OpenAI عن بروتوكول شبكة حاسوب فائق من طراز MRC! بالتعاون مع Nvidia وAMD وMicrosoft لبناء بنية Stargate الأساسية
طرح ChatGPT إضافة Excel وGoogle Sheets: GPT-5.5 يتيح تسجيل الدخول مباشرة إلى جداول البيانات، وCopilot وGemini في مواجهة مباشرة