استناداً إلى أحدث ورقة بحثية صادرة عن Penn State وUCSC وAmazon، بعنوان "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents"، خلص الباحثون إلى أن قدرات وكلاء الذكاء الاصطناعي على تحديث المعدات تُظهر نمطاً من "التسطّح" عبر نماذج مختلفة. وكشفت الاختبارات المتقاطعة أن تحديثات المعدات لدى نماذج مختلفة تسفر عن مكاسب في الأداء تختلف بنسبة لا تتجاوز 3.1%. كما أظهر نموذج Qwen3.5-9B بحجم 9B أن تحديثاته متكافئة بنيوياً مع التحديثات الرائدة في Claude Opus 4.6.
ومع ذلك، فإن قدرة الوكلاء على الاستفادة من المعدات المحدَّثة تتبع اتجاهاً غير خطي (غير رتيب). تواجه النماذج الضعيفة مثل Qwen3-32B حالتي فشل حاسمتين: "فشل تفعيل المعدات"، بمعدل تحميل مهارات لا يتجاوز 25.1% مقارنةً بـ96% لدى النماذج الأقوى، و"فشل الامتثال للمعدات"، حيث ينخفض الالتزام بالتعليمات بشكل حاد من 0.52 إلى 0.13 خلال التنفيذ الممتد. وأشار باحث الذكاء الاصطناعي Elvis Sar إلى أنماط مماثلة في تجاربه على وكلاء الترميز، ما يوحي بأن الميزانيات الحاسوبية ينبغي أن تُعطي الأولوية لوكلاء التنفيذ على حساب محركات التطور.