انخفاض دقة GPT-5.4 من 100% إلى 54% على ARC-AGI بعد عمليات تلخيص متكررة للذاكرة

وفقاً لـ Beating، كشفت دراسة حديثة للذاكرة لدى الوكلاء أجراها ديلان تشانغ، طالب دكتوراه في جامعة إلينوي، أن تلخيص تجارب النموذج بشكل متكرر يمكن أن يُضعف الأداء بدل أن يحسّنه. في مهام ARC-AGI، حقق GPT-5.4 دقة 100% على 19 مسألة دون ذاكرة، لكن بعد عدة جولات من ضغط الذاكرة استناداً إلى مسارات الحل الصحيحة انخفضت الدقة إلى 54%. وبالمثل، في مهام التسوق عبر WebShop، سجّل أسلوب AWM للذاكرة 0.64 مع 8 مسارات خبراء، لكنه تراجع إلى 0.20 مع 128 مساراً، وعاد إلى مستوى الأساس. تشير نتائج البحث إلى أن المشكلة تنبع من الإفراط في التلخيص: إذ تفقد كل خطوة تجريد تفاصيل محددة وتدمج القواعد الخاصة بالمهمة ضمن إرشادات عامة، ما يؤدي في النهاية إلى تدهور أداء النموذج.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات