Stanford apresenta Agent Island: modelos de IA traem-se e excluem-se em pares no jogo de estratégia estilo Survivor

2026-05-10 14:04:04

A investigadora do Stanford Digital Economy Lab, Connacher Murphy, lançou a 9 de maio um novo ambiente de avaliação por IA, “Agent Island”, para que agentes de IA competam, se aliem e traiam num jogo multijogador em estilo Survivor, com votação e eliminação, medindo assim comportamentos estratégicos que os benchmarks estáticos não conseguem captar. A Decrypt reuniu a informação: os benchmarks tradicionais de IA estão a revelar-se cada vez mais pouco fiáveis — no final, os modelos acabam por aprender a resolver os problemas, e os dados do benchmark são também facilmente “vazados” para o conjunto de treino. O Agent Island muda para um desenho de “eliminatórias dinâmicas”, exigindo que o modelo tome decisões estratégicas sobre outros agentes, em vez de conseguir passar a prova por memorização de respostas predefinidas.

Regras do Agent Island: agentes aliando-se, traindo e votando

Mecanismos centrais do jogo Agent Island:

Vários agentes de IA entram no mesmo cenário do jogo, interpretando jogadores/concorrentes em estilo Survivor

Os agentes têm de negociar alianças com outros agentes e trocar informação entre si

Os agentes podem, ao longo do processo, acusar outros de coordenação secreta e de manipulação da votação

O jogo reduz o número de agentes em campo através de um mecanismo de eliminação, acabando por ficar um vencedor

Os investigadores observam padrões de comportamento dos agentes em cada etapa e extraem sinais como “traição estratégica”, “formação de alianças” e “manipulação de informação”

O cerne desta conceção é o facto de ser “impossível ser memorizado de antemão” — porque o comportamento dos outros agentes muda de forma dinâmica, e o modelo tem de decidir consoante o contexto atual; ao contrário dos benchmarks estáticos que podem ser ultrapassados com memorização das respostas a partir de dados de treino.

Motivação do estudo: benchmarks estáticos não conseguem avaliar comportamentos de interação entre múltiplos agentes

Questões concretas defendidas pela investigação de Murphy:

Benchmarks tradicionais tendem a saturar: à medida que o treino avança, as pontuações do benchmark deixam de conseguir distinguir entre modelos diferentes

Contaminação dos dados do benchmark: as perguntas aparecem em grandes corpora de treino, fazendo com que o modelo seja, na prática, “capaz de memorizar respostas” em vez de “entender os problemas”

Interação entre vários agentes é o cenário real de implantação de IA: no futuro, sistemas de agentes poderão coordenar vários modelos, e os comportamentos de interação passam a ser uma dimensão nova de avaliação

Agent Island fornece avaliação dinâmica: o resultado de cada jogo é diferente, tornando difícil a preparação antecipada

Os comportamentos observados pelos investigadores nas eliminatórias dinâmicas incluem: enquanto os agentes cooperam à superfície, coordenam nos bastidores a votação para eliminar um adversário comum; e, quando são acusados de coordenação secreta, usam diversas justificações para desviar a atenção. Estes comportamentos assemelham-se aos dos jogadores humanos no programa real de Survivor.

O lado duplo da investigação: pode avaliar — e também pode ser usado para reforçar capacidades de engano

Murphy aponta de forma explícita riscos potenciais no estudo:

O valor do Agent Island: antes de uma implementação em larga escala dos agentes, identificar tendências para enganar e manipular por parte de modelos

O mesmo ambiente também pode ser usado para melhorar as “estratégias de persuasão e coordenação” dos agentes

Se os dados de investigação (logs de interação) forem publicados, é possível que possam ser usados para treinar a próxima geração de agentes com maior capacidade de manipulação

A equipa de investigação está a avaliar como encontrar um equilíbrio entre publicar resultados e evitar abusos

Eventos concretos a seguir: se o Agent Island vai ser alargado a um padrão normalizado de avaliação de IA; se outras equipas de investigação em segurança de IA (Anthropic, OpenAI, Apollo Research, entre outras) vão adotar métodos de avaliação dinâmicos semelhantes; e as políticas concretas da equipa sobre “publicação ou limitação” dos logs de interação.

O artigo Stanford que promove o Agent Island: a IA trai estrategicamente e elimina através de votos em jogos ao estilo Survivor surge pela primeira vez em Cadeia de Notícias ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-10 06:21

A Google prepara exames de contratação que permitem aos engenheiros usar ferramentas de IA

05-09 22:07

A presidente da SEC, Atkins, propõe uma nova regulamentação para mercados onchain e aplicações de software na sexta-feira

05-09 14:18

Trust Wallet e Mesh apresentam capacidades de agentes de IA na Consensus Miami

Disputa do Anthropic Code Mode: MCP vs CLI — as ferramentas travam o Runtime e os tokens caem de 150 mil para 2 mil

ChainNewsAbmedia05-10 09:15

Garry Tan: Eu agora dou muito poucos prompts para IA! O CEO da YC analisa “fluxos de trabalho de IA com capitalização”

ChainNewsAbmedia05-10 06:44

O inquérito da Fed mostra que as preocupações com a IA estão a aumentar em todos os mercados, no crédito e no emprego

Coinpedia05-10 03:39

Anthorpic lança um AI Agent especializado em finanças, exclusivo para empresas — pessoas da indústria revelam o motivo de que o Claude não consegue substituir os analistas

ChainNewsAbmedia05-09 17:13

OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

ChainNewsAbmedia05-09 07:34

Comentar

0/400

Nenhum comentário