Исследователь цифровой экономики Стэнфордской лаборатории Connacher Murphy 9 мая запустил новую среду для оценки ИИ «Agent Island», где ИИ-агенты в многопользовательской игре в стиле Survivor (выживший) конкурируют друг с другом, объединяются, предают, голосованием исключают соперников — так измеряются стратегические действия, которые статический benchmark не может уловить. Расследование Decrypt: традиционные ИИ-benchmark становятся всё менее надёжными — в итоге модель учится решать задачи, а данные benchmark легко просачиваются в тренировочный набор; в Agent Island используется дизайн «динамического турнира с выбыванием»: модель должна принимать стратегические решения в отношении других Agent, а не может пройти дальше, опираясь на память с заранее заготовленными ответами.
Правила Agent Island: Agent объединяются, предают, голосуют
Ключевые игровые механики Agent Island:
Несколько ИИ-агентов входят на одно игровое поле и выступают в роли участников в стиле Survivor
Агент должен договариваться с другими Agent об альянсах, обмениваясь информацией друг с другом
Агент может в ходе игры обвинять других в тайном сговоре и манипулировать голосованием
Игровой процесс через механизм исключения сокращает количество Agent на поле, и в итоге остаётся победитель
Исследователи наблюдают за паттернами поведения Agent на каждом этапе и извлекают сигналы таких действий, как «стратегическое предательство», «формирование альянса», «манипуляция информацией» и т. п.
Ключ этой конструкции — «невозможность пройти за счёт заранее выученной памяти»: поскольку поведение других Agent динамически меняется, модель должна принимать решения под текущую ситуацию; в отличие от статического benchmark, который можно “выучить” по данным тренировки и запомнить ответы.
Мотивация исследования: статический benchmark не может оценить поведение при взаимодействии множества Agent
Конкретные проблемы, на которых настаивает исследование Murphy:
Традиционные benchmark легко насыщаются: когда модель дообучается на более поздних этапах, баллы benchmark перестают различать разные модели
Загрязнение данных benchmark: тестовые задания встречаются в больших обучающих корпусах, и на деле модель «запоминает ответы», а не «понимает вопросы»
Взаимодействие множества Agent — реальная среда для развёртывания ИИ: в будущем системы Agent могут координироваться несколькими моделями, и взаимодействие станет новым измерением оценки
Agent Island обеспечивает динамическую оценку: результаты каждой игры разные, к ним трудно подготовиться заранее
Исследователи в динамическом турнире с выбыванием наблюдали действия, которые включают в себя то, что Agent, сотрудничая на поверхности, за кулисами координируют голосования для исключения общего противника; а также то, как при обвинениях в тайной координации они с помощью разных аргументов уводят фокус. Эти действия похожи на поведение людей-игроков в реальном шоу Survivor.
Двусторонний эффект исследования: оценивать можно, но среда также может быть использована для усиления навыков обмана
Murphy в своём исследовании чётко обозначает потенциальные риски:
Ценность Agent Island: до массового развёртывания Agent — выявление того, склонны ли модели к обману и манипуляциям
Такая же среда может быть использована, чтобы улучшать у Agent «стратегии убеждения и координации»
Если исследовательские данные (interaction log) будут опубликованы, их можно будет использовать для тренировки следующего поколения Agent с ещё более высокой способностью к манипулированию
Команда исследователей сейчас оценивает, как найти баланс между публикацией результатов и предотвращением злоупотреблений
Следующие события, которые можно будет отследить: будет ли Agent Island расширен до режима постоянного стандарта оценки ИИ, будут ли другие команды по безопасности ИИ (Anthropic, OpenAI, Apollo Research и т. д.) применять аналогичные методы динамической оценки, а также как сформулирует команда исследователей конкретные политики по поводу того, публиковать или ограничивать interaction log.
Эта статья «Стэнфорд запускает Agent Island: стратегическое предательство и голосование против в стиле Survivor у ИИ-моделей» впервые появилась в Lian News ABMedia.
Related News
Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.
Гарри Тан: Я сейчас очень редко даю ИИ подсказки! Генеральный директор YC объясняет «компонуемый AI-воркфлоу»
Опрос ФРС показывает, что обеспокоенность ИИ растёт на рынках, в кредитовании и занятости
Anthorpic запускает финансового AI-агента для профессионалов, инсайдеры в отрасли раскрывают ключевой момент: Claude не может заменить аналитиков
OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям