Sakana AI Fugu Ultra مقابل Fable 5: مقارنة المعايير موضع تساؤل بسبب اختلافات إطار الاختبار

2026-06-26 09:41:31

وفقاً لمراقبة من Beating، فإن الانتصارات المزعومة لنظام الوكلاء المتعددين Fugu Ultra من Sakana AI على Fable 5 من Anthropic في معايير الاستدلال العلمي والبرمجة تواجه شكوكاً واسعة من مجتمع الذكاء الاصطناعي.

يجادل النقاد بأن نتائج المعايير تعتمد بشكل كبير على السقالات الاختبارية المستخدمة أثناء التقييم. يمكن أن تؤدي تطبيقات السقالات المختلفة إلى تباينات تتراوح بين 10 و20 نقطة، مما يعني أن الفروق المبلغ عنها في الأداء قد تعكس تحسينات في هندسة النظام بدلاً من التقدم في القدرات الأساسية للنموذج. أصدرت كل من Sakana AI وAnthropic نتائج بناءً على سقالات مملوكة ومخصصة لكل بائع دون بيئات اختبار موحدة من طرف ثالث، مما يحد من موثوقية المقارنات المباشرة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 2 س

Sakana AI وKPMG تعلنان عن CoffeeBench، محاكاة تداول وكيل AI لمدة 90 يومًا؛ GPT-5.5 وClaude يظهران استراتيجيات متباينة

منذ 8 س

جوجل تعيد تنظيم فرقة عمل الترميز بالذكاء الاصطناعي بعد مغادرة باحثين رئيسيين هذا الأسبوع، سهم الشركة ينخفض 5%

منذ 8 س

كارباتي يواجه انتقادات لاذعة على إكس بعد إشادته بـClaude؛ ماسك يتعهد بإصلاح الخوارزمية

منذ 11 س

Anthropic تحظر الوصول من الاتحاد الأوروبي إلى Fable 5 وMythos 5 بسبب مخاوف اختراق أمني.

06-25 06:33

نظام Fugu Ultra Multi-Agent System من Sakana AI ينطلق على OpenRouter، ويتفوق على Fable 5 في المعايير.

تحليل متعمق