وفقاً لـ Beating، كشفت دراسة حديثة للذاكرة لدى الوكلاء أجراها ديلان تشانغ، طالب دكتوراه في جامعة إلينوي، أن تلخيص تجارب النموذج بشكل متكرر يمكن أن يُضعف الأداء بدل أن يحسّنه. في مهام ARC-AGI، حقق GPT-5.4 دقة 100% على 19 مسألة دون ذاكرة، لكن بعد عدة جولات من ضغط الذاكرة استناداً إلى مسارات الحل الصحيحة انخفضت الدقة إلى 54%. وبالمثل، في مهام التسوق عبر WebShop، سجّل أسلوب AWM للذاكرة 0.64 مع 8 مسارات خبراء، لكنه تراجع إلى 0.20 مع 128 مساراً، وعاد إلى مستوى الأساس. تشير نتائج البحث إلى أن المشكلة تنبع من الإفراط في التلخيص: إذ تفقد كل خطوة تجريد تفاصيل محددة وتدمج القواعد الخاصة بالمهمة ضمن إرشادات عامة، ما يؤدي في النهاية إلى تدهور أداء النموذج.
Related News
جوجل: تُستخدم نماذج اللغات الكبيرة في هجمات فعلية، ويمكن للذكاء الاصطناعي تجاوز آليات الأمان الخاصة بالمصادقة الثنائية
كشفت Google عن أول حالة لثغرة يوم-صفر مُولَّدة بالذكاء الاصطناعي: سعى القراصنة إلى التحايل على المصادقة الثنائية (2FA) لاستغلالها على نطاق واسع
ستانفورد تطلق Agent Island: نماذج الذكاء الاصطناعي تخون استراتيجيات في ألعاب بنمط Survivor وتتنافس لإقصاء بعضهم بعضاً