انخفاض درجة تصحيح الأخطاء في Claude Fable 5 من 86.2 إلى 25.9 في 1 يوليو، لكن Arena.AI تظهر أداءً مستقرًا

وفقاً لـ BridgeBench، انهارت نتيجة تصحيح الأخطاء لـ Claude Fable 5 من 86.2 إلى 25.9 بعد إعادته في 1 يوليو، مع انخفاض إعادة الهيكلة من 73.6 إلى 38.4. ومع ذلك، يعكس هذا الانخفاض مصنف السلامة الجديد لـ Anthropic الذي يوجّه معظم مهام البرمجة إلى Claude Opus 4.8، وليس تدهور النموذج. من أصل 12 مهمة تصحيح أخطاء، وصلت ثلاث فقط إلى Fable 5؛ اعترض المصنف تسعاً منها عن قصد لمنع استغلال الثغرات الأمنية.

اختبارات التفضيل البشري المتزامنة لـ Arena.AI عبر آلاف الأصوات العمياء وجدت أن أداء Fable 5 لم يتغير إلى حد كبير بعد إعادته، مع ارتفاع درجات المستندات بمقدار 34 نقطة والنصوص المتخصصة بمقدار 25. من المحتمل أن يلاحظ المستخدمون العامون الذين يتعاملون مع الكتابة الإبداعية والبحث والتحليل تأثيراً ضئيلاً، بينما يواجه المطورون الذين يعملون على كود قريب من الأمان توجيهاً متكرراً إلى النماذج البديلة. أقرت Anthropic أن المصنفات ترمي حالياً بشبكة واسعة جداً لكنها لم تقدم جدولاً زمنياً للتحسين.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات