أعلنت OpenAI في 7 مايو (بالتوقيت الأمريكي) خلال مؤتمر للمطورين عن ثلاث نماذج جديدة للّغة الصوتية Realtime: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، وجميعها متاحة للمطورين عبر Realtime API. ووضّح إعلان OpenAI الرسمي أن GPT-Realtime-2 هو أول نموذج صوتي لدى OpenAI يتمتع بقدرات استدلال بمستوى GPT-5، قادر على إجراء استدلال فوري أثناء محادثات صوتية، واستدعاء الأدوات، ومعالجة التصحيحات، مع الحفاظ على إيقاع محادثة طبيعي.

GPT-Realtime-2: رفع context من 32K إلى 128K وإتاحة ضبط قوة الاستدلال على خمس درجات

تشمل الترقيات الأساسية في GPT-Realtime-2:

نافذة context: من 32K إلى 128K tokens

قوة الاستدلال قابلة للتعديل: minimal وlow وmedium وhigh وxhigh (خمس درجات)

اختبار Big Bench Audio: عند اختيار high تبلغ نسبة الاستدلال 96.6%، بينما كانت نسبة سلفه GPT-Realtime-1.5 هي 81.4%

التزام تعليمات Audio MultiChallenge: عند اختيار xhigh تبلغ نسبة الاستدلال 48.5%، بينما كانت نسبة سلفه 34.7%

يتيح سياق أكبر وقوة استدلال قابلة للضبط للمطورين التبديل بين «الرخيص والسريع» و«التفكير العميق» وفقًا لطبيعة السيناريو—إذ يمكن لخدمة عملاء بسيطة استخدام وضع minimal للتحكم في التكاليف، بينما تُحوّل المهام المعقدة إلى xhigh مقابل جودة استدلال بمستوى GPT-5.

وفي الوقت نفسه، تم إصدار نموذجين مخصصين: Translate للترجمة عبر اللغات، وWhisper للنسخ الفوري.

توزيع الأدوار للنماذج الثلاثة في هذه الجولة:

GPT-Realtime-Translate: ترجمة صوتية فورية متعددة اللغات، مع دعم 70 لغة إدخال و13 لغة إخراج

GPT-Realtime-Whisper: نسخ متدفق منخفض التأخير، وإخراج النص أثناء الإلقاء، ومناسب للتسميات الفورية التوضيحية، وسجلات الاجتماعات، ومحاضر الدروس كلمة بكلمة

GPT-Realtime-2: وكيل محادثات كامل، قادر على الاستدلال، واستخدام الأدوات، وتنفيذ الإجراءات

يُعد Translate وWhisper نماذج متخصصة لتطبيقات صوتية محددة—إذ تكون حساسية التأخير والتكلفة أعلى في الترجمة والنسخ مقارنة بالمحادثة العامة، ويمكن لنماذج مستقلة تحسين مؤشرات كل منهما.

التسعير: GPT-Realtime-2 بسعر 32 دولارًا لكل مليون مدخلات صوتية، و64 دولارًا لكل مليون مخرجات

يتضمن هيكل تسعير النماذج الثلاثة:

GPT-Realtime-2: 32 دولارًا لكل مليون مدخلات صوتية، و0.40 دولارًا لمدخلات cached، و64 دولارًا للمخرجات

GPT-Realtime-Translate: 0.034 دولارًا لكل دقيقة

GPT-Realtime-Whisper: 0.017 دولارًا لكل دقيقة

الأحداث التفصيلية التي يمكن متابعتها لاحقًا: الاستخدام الفعلي لـ GPT-Realtime-2 كـ voice agent في بيئات الإنتاج، ومدى تأثيره عبر الاستبدال (cannibalization) مقارنةً بنماذج الصوت الحالية من GPT-4o، وردود فعل المنافسين مثل Anthropic وGoogle.

أول ظهور لهذه المقالة التي تعرّف GPT-Realtime-2 من OpenAI: إدخال استدلال GPT-5 في voice agent، ورفع السعة السياقية إلى 128K، كان في موقع ABMedia ضمن سلسلة أخبار السلسلة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-08 02:01

أوبن إيه آي تغيّر النموذج الافتراضي لـChatGPT إلى GPT-5.5 Instant وتقلّل الهلوسة بنسبة 52.5%

05-08 01:25

أطلقت OpenAI ثلاثة نماذج صوتية في واجهة برمجة التطبيقات للزمن الفعلي؛ يتميّز GPT-Realtime-2 بنافذة سياق بحجم 128K

05-08 00:08

أطلقت OpenAI نموذج GPT-5.5-Cyber وإطار الوصول الموثوق للدفاعات في مجال الأمن السيبراني