Stanford запускает Agent Island: AI-модели в игре в стиле Survivor устраивают стратегические предательства и взаимное устранение

ChainNewsAbmedia

Исследователь цифровой экономики Стэнфордской лаборатории Connacher Murphy 9 мая запустил новую среду для оценки ИИ «Agent Island», где ИИ-агенты в многопользовательской игре в стиле Survivor (выживший) конкурируют друг с другом, объединяются, предают, голосованием исключают соперников — так измеряются стратегические действия, которые статический benchmark не может уловить. Расследование Decrypt: традиционные ИИ-benchmark становятся всё менее надёжными — в итоге модель учится решать задачи, а данные benchmark легко просачиваются в тренировочный набор; в Agent Island используется дизайн «динамического турнира с выбыванием»: модель должна принимать стратегические решения в отношении других Agent, а не может пройти дальше, опираясь на память с заранее заготовленными ответами.

Правила Agent Island: Agent объединяются, предают, голосуют

Ключевые игровые механики Agent Island:

Несколько ИИ-агентов входят на одно игровое поле и выступают в роли участников в стиле Survivor

Агент должен договариваться с другими Agent об альянсах, обмениваясь информацией друг с другом

Агент может в ходе игры обвинять других в тайном сговоре и манипулировать голосованием

Игровой процесс через механизм исключения сокращает количество Agent на поле, и в итоге остаётся победитель

Исследователи наблюдают за паттернами поведения Agent на каждом этапе и извлекают сигналы таких действий, как «стратегическое предательство», «формирование альянса», «манипуляция информацией» и т. п.

Ключ этой конструкции — «невозможность пройти за счёт заранее выученной памяти»: поскольку поведение других Agent динамически меняется, модель должна принимать решения под текущую ситуацию; в отличие от статического benchmark, который можно “выучить” по данным тренировки и запомнить ответы.

Мотивация исследования: статический benchmark не может оценить поведение при взаимодействии множества Agent

Конкретные проблемы, на которых настаивает исследование Murphy:

Традиционные benchmark легко насыщаются: когда модель дообучается на более поздних этапах, баллы benchmark перестают различать разные модели

Загрязнение данных benchmark: тестовые задания встречаются в больших обучающих корпусах, и на деле модель «запоминает ответы», а не «понимает вопросы»

Взаимодействие множества Agent — реальная среда для развёртывания ИИ: в будущем системы Agent могут координироваться несколькими моделями, и взаимодействие станет новым измерением оценки

Agent Island обеспечивает динамическую оценку: результаты каждой игры разные, к ним трудно подготовиться заранее

Исследователи в динамическом турнире с выбыванием наблюдали действия, которые включают в себя то, что Agent, сотрудничая на поверхности, за кулисами координируют голосования для исключения общего противника; а также то, как при обвинениях в тайной координации они с помощью разных аргументов уводят фокус. Эти действия похожи на поведение людей-игроков в реальном шоу Survivor.

Двусторонний эффект исследования: оценивать можно, но среда также может быть использована для усиления навыков обмана

Murphy в своём исследовании чётко обозначает потенциальные риски:

Ценность Agent Island: до массового развёртывания Agent — выявление того, склонны ли модели к обману и манипуляциям

Такая же среда может быть использована, чтобы улучшать у Agent «стратегии убеждения и координации»

Если исследовательские данные (interaction log) будут опубликованы, их можно будет использовать для тренировки следующего поколения Agent с ещё более высокой способностью к манипулированию

Команда исследователей сейчас оценивает, как найти баланс между публикацией результатов и предотвращением злоупотреблений

Следующие события, которые можно будет отследить: будет ли Agent Island расширен до режима постоянного стандарта оценки ИИ, будут ли другие команды по безопасности ИИ (Anthropic, OpenAI, Apollo Research и т. д.) применять аналогичные методы динамической оценки, а также как сформулирует команда исследователей конкретные политики по поводу того, публиковать или ограничивать interaction log.

Эта статья «Стэнфорд запускает Agent Island: стратегическое предательство и голосование против в стиле Survivor у ИИ-моделей» впервые появилась в Lian News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев