كلود فابل 5 يُظهر نتائج اختبارات مرجعية متضاربة بعد إعادة التفعيل في 1 يوليو

عاد كلود فيبل 5 إلى الخدمة في 1 يوليو، مما أثار تقييمات أداء متعارضة من منصتي قياس أداء الذكاء الاصطناعي. سجلت BridgeBench انهيارًا في درجة تصحيح الأخطاء من 86.2 إلى 25.9، بينما وجدت Arena.AI أن الأداء لم يتغير إلى حد كبير عبر آلاف الأصوات العمياء لتفضيل المستخدمين. يعود الاختلاف إلى مصنف السلامة الجديد من Anthropic الذي يوجه معظم مهام البرمجة إلى كلود أوبس 4.8 بدلاً من انخفاض قدرات النموذج الفعلية، وفقًا لتحليلات نُشرت في 2 يوليو. تم نشر المصنف كشرط لإعادة الخدمة بعد أن أظهر باحثو أمازون تقنية اختراق في يونيو، مما دفع الحكومة الأمريكية إلى التدخل على أساس الأمن القومي.

BridgeBench تسجل انخفاضات حادة في الدرجات عبر فئات البرمجة

أعادت BridgeMind تشغيل مجموعة اختبار البرمجة الكاملة الخاصة بها مقابل إصدار 1 يوليو من فيبل 5 في اليوم الذي عاد فيه. تختبر BridgeBench مهام برمجة واقعية عبر فئات تشمل تصحيح الأخطاء وإعادة الهيكلة ومقاومة الهلوسة، بدرجات من 0 إلى 100 لقياس مدى جودة إكمال النموذج لكل فئة. انخفض تصحيح الأخطاء من 86.2 إلى 25.9، وإعادة الهيكلة من 73.6 إلى 38.4، ومقاومة الهلوسة من 75.9 إلى 61.7.

من بين 12 مهمة لتصحيح أخطاء TypeScript، وصلت ثلاث فقط بالفعل إلى فيبل 5. التسع المتبقية تم اعتراضها بواسطة مصنف السلامة الجديد من Anthropic وأُعيد توجيهها إلى كلود أوبس 4.8. تسجل BridgeBench كل عملية إعادة توجيه كصفر، لأن النموذج الذي أجاب لم يكن النموذج الخاضع للتقييم. تم تدريب المصنف على منع تقنية الاختراق التي أبلغت عنها أمازون — وهي التي جعلت فيبل 5 يحدد ويظهر الثغرات البرمجية. يبدو تصحيح أخطاء TypeScript مشابهًا بما يكفي لأعمال الأمان للمصنف بحيث يتم تفعيل إعادة التوجيه باستمرار.

التصويت البشري من Arena.AI يُظهر أداءً مستقرًا في معظم الفئات

أجرت Arena.AI نفس التساؤل من خلال عدسة مختلفة. تجمع المنصة آلاف الأصوات العمياء لتفضيل المستخدمين عبر فئات متعددة — النصوص والرؤية والوثائق والبرمجة والعامل — وتُصنف النماذج باستخدام نظام Elo للتقييم. عندما يتنافس نموذجان دون الكشف عن هويتهما ويختار البشر الفائز، تعكس النتيجة الجودة المتصورة الفعلية، وليس توجيه البنية التحتية.

أظهرت المقارنة قبل وبعد أن فيبل 5 حافظ على موقعه إلى حد كبير. انخفضت برمجة الواجهة الأمامية من 1650 إلى 1623 نقطة Elo — وهو فارق لاحظت Arena أنه ضمن فترة الثقة مع استمرار تجميع البيانات. تحسن أداء الوثائق بمقدار 34 نقطة. ارتفعت النصوص الخبيرة بمقدار 25. ارتفعت الكتابة الإبداعية قليلاً بمقدار 9. الفئات التي انخفضت — البرمجة عند -18، الاستفسارات الصعبة عند -3 — هي بالضبط حيث من المرجح أن يعترض المصنف الاستفسار قبل أن يتمكن فيبل من الإجابة.

تأثير المستخدم يختلف حسب فئة المهمة

من المرجح أن يلاحظ المستخدمون العاديون الذين يقومون بالكتابة الإبداعية وتحليل الوثائق والبحث واستفسارات النصوص الخبيرة فرقًا ضئيلًا أو معدومًا. هذه هي الفئات التي تظهر فيها Arena.AI أداءً ثابتًا أو محسنًا. سيحصل الكتاب والباحثون والمحللون على فيبل 5 الذي توقعوه.

أي شخص يعمل في مجال مشابه للأمان — برمجة إدارة الذاكرة، أي شيء يتعلق بكلمات مثل ثغرة أو استغلال أو خطاف أو حتى إصلاح — سيواجه إعادة التوجيه بانتظام. الفجوة بين انهيار BridgeBench واستقرار Arena تعود إلى نوع المهمة. تحمل BridgeBench مجموعتها من الاستفسارات التي تحفز المصنف الجديد تمامًا — إصلاح الأكواد وتصحيح الأخطاء. يطرح المصنفون البشريون في Arena مجموعة أوسع بكثير من الأسئلة، ومعظمها لا يبدو كأكواد استغلال لطبقة السلامة.

أنثروبيك يعترف بالإيجابيات الكاذبة دون جدول زمني للتحسين

صرحت Anthropic بأن المصنفات ستتحسن بمرور الوقت، معترفة بأنها حاليًا تلقي بشبكة واسعة جدًا. جاء الحظر الأصلي بعد أن وجد باحثو أمازون تقنية لجعل فيبل يحدد ويظهر الثغرات البرمجية — وتعاملت الحكومة الأمريكية مع ذلك كتهديد للأمن القومي. كان الإصلاح هو جعل المصنف محافظًا بما يكفي لالتقاط ذلك وكل ما حوله، ثم ضبطه لاحقًا. لم تحدد أنثروبيك تاريخًا مستهدفًا لحدوث ذلك.

الأسئلة الشائعة

لماذا انخفضت درجة تصحيح الأخطاء لكلود فيبل 5 من 86.2 إلى 25.9 على BridgeBench؟
قام مصنف السلامة بتوجيه تسع من اثنتي عشرة مهمة لتصحيح أخطاء TypeScript إلى كلود أوبس 4.8 بدلاً من فيبل 5. تسجل BridgeBench كل إعادة توجيه كصفر لأن النموذج الذي تم تقييمه لم يعالج المهمة، مما تسبب في الانخفاض الحاد في الدرجة على الرغم من عدم وجود تغيير في قدرات فيبل 5 الفعلية.

ماذا وجدت Arena.AI حول أداء فيبل 5 بعد إعادة الخدمة في 1 يوليو؟
جمعت Arena.AI آلاف الأصوات العمياء لتفضيل المستخدمين ووجدت أن أداء فيبل 5 ظل ثابتًا إلى حد كبير مقارنة بإصدار يونيو. تحسن أداء الوثائق بمقدار 34 نقطة والنصوص الخبيرة بمقدار 25 نقطة، بينما انخفضت برمجة الواجهة الأمامية من 1650 إلى 1623 نقطة Elo — وهو فارق ضمن فترة الثقة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات