De acordo com o artigo mais recente da Penn State, UCSC e Amazon, intitulado “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents”, os pesquisadores descobriram que as capacidades de atualização de equipamentos entre agentes de IA apresentam um padrão de “achatamento” em diferentes modelos. Os testes cruzados revelaram que as atualizações de equipamentos de modelos diferentes geram ganhos de desempenho que variam apenas 3,1%, e até o modelo Qwen3.5-9B, na escala de 9B, produz atualizações estruturalmente equivalentes ao carro-chefe Claude Opus 4.6.
No entanto, a capacidade dos agentes de se beneficiar de equipamentos atualizados mostra tendências não monótonas. Modelos mais fracos como o Qwen3-32B enfrentam dois modos críticos de falha: “equipment activation failure”, com apenas 25,1% de taxas de carregamento de habilidades versus 96% para modelos mais fortes, e “equipment compliance failure”, em que a aderência às instruções cai drasticamente de 0,52 para 0,13 durante execuções mais longas. O pesquisador de IA Elvis Sar observou padrões semelhantes em seus experimentos com agentes de programação, sugerindo que os orçamentos computacionais devem priorizar agentes de execução em vez de motores de evolução.