Stanford apresenta Agent Island: modelos de IA traem-se e excluem-se em pares no jogo de estratégia estilo Survivor

ChainNewsAbmedia

A investigadora do Stanford Digital Economy Lab, Connacher Murphy, lançou a 9 de maio um novo ambiente de avaliação por IA, “Agent Island”, para que agentes de IA competam, se aliem e traiam num jogo multijogador em estilo Survivor, com votação e eliminação, medindo assim comportamentos estratégicos que os benchmarks estáticos não conseguem captar. A Decrypt reuniu a informação: os benchmarks tradicionais de IA estão a revelar-se cada vez mais pouco fiáveis — no final, os modelos acabam por aprender a resolver os problemas, e os dados do benchmark são também facilmente “vazados” para o conjunto de treino. O Agent Island muda para um desenho de “eliminatórias dinâmicas”, exigindo que o modelo tome decisões estratégicas sobre outros agentes, em vez de conseguir passar a prova por memorização de respostas predefinidas.

Regras do Agent Island: agentes aliando-se, traindo e votando

Mecanismos centrais do jogo Agent Island:

Vários agentes de IA entram no mesmo cenário do jogo, interpretando jogadores/concorrentes em estilo Survivor

Os agentes têm de negociar alianças com outros agentes e trocar informação entre si

Os agentes podem, ao longo do processo, acusar outros de coordenação secreta e de manipulação da votação

O jogo reduz o número de agentes em campo através de um mecanismo de eliminação, acabando por ficar um vencedor

Os investigadores observam padrões de comportamento dos agentes em cada etapa e extraem sinais como “traição estratégica”, “formação de alianças” e “manipulação de informação”

O cerne desta conceção é o facto de ser “impossível ser memorizado de antemão” — porque o comportamento dos outros agentes muda de forma dinâmica, e o modelo tem de decidir consoante o contexto atual; ao contrário dos benchmarks estáticos que podem ser ultrapassados com memorização das respostas a partir de dados de treino.

Motivação do estudo: benchmarks estáticos não conseguem avaliar comportamentos de interação entre múltiplos agentes

Questões concretas defendidas pela investigação de Murphy:

Benchmarks tradicionais tendem a saturar: à medida que o treino avança, as pontuações do benchmark deixam de conseguir distinguir entre modelos diferentes

Contaminação dos dados do benchmark: as perguntas aparecem em grandes corpora de treino, fazendo com que o modelo seja, na prática, “capaz de memorizar respostas” em vez de “entender os problemas”

Interação entre vários agentes é o cenário real de implantação de IA: no futuro, sistemas de agentes poderão coordenar vários modelos, e os comportamentos de interação passam a ser uma dimensão nova de avaliação

Agent Island fornece avaliação dinâmica: o resultado de cada jogo é diferente, tornando difícil a preparação antecipada

Os comportamentos observados pelos investigadores nas eliminatórias dinâmicas incluem: enquanto os agentes cooperam à superfície, coordenam nos bastidores a votação para eliminar um adversário comum; e, quando são acusados de coordenação secreta, usam diversas justificações para desviar a atenção. Estes comportamentos assemelham-se aos dos jogadores humanos no programa real de Survivor.

O lado duplo da investigação: pode avaliar — e também pode ser usado para reforçar capacidades de engano

Murphy aponta de forma explícita riscos potenciais no estudo:

O valor do Agent Island: antes de uma implementação em larga escala dos agentes, identificar tendências para enganar e manipular por parte de modelos

O mesmo ambiente também pode ser usado para melhorar as “estratégias de persuasão e coordenação” dos agentes

Se os dados de investigação (logs de interação) forem publicados, é possível que possam ser usados para treinar a próxima geração de agentes com maior capacidade de manipulação

A equipa de investigação está a avaliar como encontrar um equilíbrio entre publicar resultados e evitar abusos

Eventos concretos a seguir: se o Agent Island vai ser alargado a um padrão normalizado de avaliação de IA; se outras equipas de investigação em segurança de IA (Anthropic, OpenAI, Apollo Research, entre outras) vão adotar métodos de avaliação dinâmicos semelhantes; e as políticas concretas da equipa sobre “publicação ou limitação” dos logs de interação.

O artigo Stanford que promove o Agent Island: a IA trai estrategicamente e elimina através de votos em jogos ao estilo Survivor surge pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário