Точность GPT-5.4 падает с 100% до 54% на ARC-AGI после многократного суммирования памяти

Исследование памяти агента от Beating, проведённое Диланом Чжаном, аспирантом Университета Иллинойса, показало, что многократное резюмирование опыта модели может ухудшать производительность, а не улучшать её. В задачах ARC-AGI GPT-5.4 достиг 100% точности на 19 проблемах без памяти, но после нескольких раундов компрессии памяти на основе правильных траекторий решения точность упала до 54%. Аналогично, в задачах покупок WebShop метод AWM показал результат 0,64 с 8 экспертными траекториями, но снизился до 0,20 при 128 траекториях, вернувшись к базовому уровню. Исследование предполагает, что проблема связана с чрезмерным резюмированием: каждый шаг абстракции теряет конкретные детали и смешивает зависящие от задачи правила в универсальные подсказки, в итоге ухудшая производительность модели.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев