أوبن إيه آي تعلن GPT-Realtime-2: نقل استدلال GPT-5 إلى وكلاء الدردشة الصوتية، ورفع مستوى السياق إلى 128K

ChainNewsAbmedia

أعلنت OpenAI في 7 مايو (بالتوقيت الأمريكي) خلال مؤتمر للمطورين عن ثلاث نماذج جديدة للّغة الصوتية Realtime: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، وجميعها متاحة للمطورين عبر Realtime API. ووضّح إعلان OpenAI الرسمي أن GPT-Realtime-2 هو أول نموذج صوتي لدى OpenAI يتمتع بقدرات استدلال بمستوى GPT-5، قادر على إجراء استدلال فوري أثناء محادثات صوتية، واستدعاء الأدوات، ومعالجة التصحيحات، مع الحفاظ على إيقاع محادثة طبيعي.

GPT-Realtime-2: رفع context من 32K إلى 128K وإتاحة ضبط قوة الاستدلال على خمس درجات

تشمل الترقيات الأساسية في GPT-Realtime-2:

نافذة context: من 32K إلى 128K tokens

قوة الاستدلال قابلة للتعديل: minimal وlow وmedium وhigh وxhigh (خمس درجات)

اختبار Big Bench Audio: عند اختيار high تبلغ نسبة الاستدلال 96.6%، بينما كانت نسبة سلفه GPT-Realtime-1.5 هي 81.4%

التزام تعليمات Audio MultiChallenge: عند اختيار xhigh تبلغ نسبة الاستدلال 48.5%، بينما كانت نسبة سلفه 34.7%

يتيح سياق أكبر وقوة استدلال قابلة للضبط للمطورين التبديل بين «الرخيص والسريع» و«التفكير العميق» وفقًا لطبيعة السيناريو—إذ يمكن لخدمة عملاء بسيطة استخدام وضع minimal للتحكم في التكاليف، بينما تُحوّل المهام المعقدة إلى xhigh مقابل جودة استدلال بمستوى GPT-5.

وفي الوقت نفسه، تم إصدار نموذجين مخصصين: Translate للترجمة عبر اللغات، وWhisper للنسخ الفوري.

توزيع الأدوار للنماذج الثلاثة في هذه الجولة:

GPT-Realtime-Translate: ترجمة صوتية فورية متعددة اللغات، مع دعم 70 لغة إدخال و13 لغة إخراج

GPT-Realtime-Whisper: نسخ متدفق منخفض التأخير، وإخراج النص أثناء الإلقاء، ومناسب للتسميات الفورية التوضيحية، وسجلات الاجتماعات، ومحاضر الدروس كلمة بكلمة

GPT-Realtime-2: وكيل محادثات كامل، قادر على الاستدلال، واستخدام الأدوات، وتنفيذ الإجراءات

يُعد Translate وWhisper نماذج متخصصة لتطبيقات صوتية محددة—إذ تكون حساسية التأخير والتكلفة أعلى في الترجمة والنسخ مقارنة بالمحادثة العامة، ويمكن لنماذج مستقلة تحسين مؤشرات كل منهما.

التسعير: GPT-Realtime-2 بسعر 32 دولارًا لكل مليون مدخلات صوتية، و64 دولارًا لكل مليون مخرجات

يتضمن هيكل تسعير النماذج الثلاثة:

GPT-Realtime-2: 32 دولارًا لكل مليون مدخلات صوتية، و0.40 دولارًا لمدخلات cached، و64 دولارًا للمخرجات

GPT-Realtime-Translate: 0.034 دولارًا لكل دقيقة

GPT-Realtime-Whisper: 0.017 دولارًا لكل دقيقة

الأحداث التفصيلية التي يمكن متابعتها لاحقًا: الاستخدام الفعلي لـ GPT-Realtime-2 كـ voice agent في بيئات الإنتاج، ومدى تأثيره عبر الاستبدال (cannibalization) مقارنةً بنماذج الصوت الحالية من GPT-4o، وردود فعل المنافسين مثل Anthropic وGoogle.

أول ظهور لهذه المقالة التي تعرّف GPT-Realtime-2 من OpenAI: إدخال استدلال GPT-5 في voice agent، ورفع السعة السياقية إلى 128K، كان في موقع ABMedia ضمن سلسلة أخبار السلسلة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات