وفقًا للمعايرة الأحدث من Datadog وCarnegie Mellon، حقق GPT-5 دقة بلغت 62.7% في اختبار ARFBench، متراجعًا عن خبراء المجال البشريين بنسبة 72.7%. يُعد ARFBench أول معيار ذكاء اصطناعي مبنيًا على 63 حادثة إنتاج حقيقية، ويتضمن 750 سؤالًا متعدد الخيارات تغطي 142 مقياس مراقبة و5.38 مليون نقطة بيانات—لا توجد بيانات اصطناعية.
تواجه نماذج الذكاء الاصطناعي صعوبة أكبر ما يمكن في الاستدلال عبر المقاييس (أسئلة المستوى الثالث)، حيث سجل GPT-5 47.5% على مقياس F1. ويصل نموذج نظري–خبير مثالي يجمع بين الذكاء الاصطناعي والحكم البشري إلى 87.2% دقة، ما يوضح كيف يمكن للتعاون أن يتجاوز أي طرف بمفرده. وتصدر نموذج Datadog الهجين، Toto-1.0-QA-Experimental، صدارة الترتيب عند 63.9% دقة، متفوقًا على GPT-5 في تحديد الشذوذات.
أخبار ذات صلة
الشكل F.03: 81 ساعة متواصلة دون فرز 101,391 طرداً بلا طيار
مالطا تمنح جميع السكان استخدام ChatGPT Plus مجاناً لمدة عام: أول تعاون على مستوى الدولة من OpenAI
أنثروبيك تناقش سباق الذكاء الاصطناعي بين الصين والولايات المتحدة: قد تؤدي الصدارة الصينية إلى تهديد عالمي، وثلاث توصيات لتعزيز الحصن الأمريكي