Исследование памяти агента от Beating, проведённое Диланом Чжаном, аспирантом Университета Иллинойса, показало, что многократное резюмирование опыта модели может ухудшать производительность, а не улучшать её. В задачах ARC-AGI GPT-5.4 достиг 100% точности на 19 проблемах без памяти, но после нескольких раундов компрессии памяти на основе правильных траекторий решения точность упала до 54%. Аналогично, в задачах покупок WebShop метод AWM показал результат 0,64 с 8 экспертными траекториями, но снизился до 0,20 при 128 траекториях, вернувшись к базовому уровню. Исследование предполагает, что проблема связана с чрезмерным резюмированием: каждый шаг абстракции теряет конкретные детали и смешивает зависящие от задачи правила в универсальные подсказки, в итоге ухудшая производительность модели.
Related News
Google: крупные языковые модели используются для реальных атак, AI может обходить механизмы безопасности двухфакторной аутентификации
Google раскрыла первый случай создания нулевого дня с помощью ИИ: хакеры хотят массово обходить 2FA
Stanford запускает Agent Island: AI-модели в игре в стиле Survivor устраивают стратегические предательства и взаимное устранение