A IA joga 《Civilization VI》 e perde para a cultura antes de lançar uma bomba nuclear; CivBench revela falhas na inferência estratégica

2026-06-24 05:16:50

De acordo com a Decrypt a 24 de junho, o programador de IA e consultor do Tony Blair Institute, Liam Wilkinson, ao descobrir, através do seu próprio quadro CivBench, que um modelo linguístico de ponta em Sid Meier’s Civilization VI não conseguiu detetar a tempo a infiltração da influência cultural francesa; no 305.º turno lançou uma bomba atómica sobre Toulouse, o centro cultural francês, e, seis turnos depois, lançou a segunda.

## Conceção do quadro CivBench: ambiente de simulação de texto puro para Sid Meier’s Civilization VI

O CivBench é um ambiente de simulação de Sid Meier’s Civilization VI em versão de texto, concebido para avaliar a capacidade de raciocínio estratégico de longo prazo dos modelos de IA — não para responder “o que é uma boa estratégia”, mas para realmente definir e executar uma estratégia.

Wilkinson salienta que Sid Meier’s Civilization tem seis vias de vitória (tecnologia, cultura, conquista, religião, diplomacia e pontos) e que não existe um objetivo único que domine o conjunto, o que torna adequado testar se a IA consegue fazer raciocínio estratégico em concorrência a múltiplas dimensões. O problema central detetado pelo CivBench é: a IA parece incapaz de acompanhar simultaneamente várias dimensões concorrentes e, em cenários com as seis vias de vitória em paralelo, negligenciou a vantagem acumulada da França na esfera cultural durante muito tempo.

Incidente da bomba atómica no 305.º turno: sequência completa de 50 turnos do “Projeto Manhattan” até Toulouse

De acordo com o registo de blogue de Wilkinson, a sequência do incidente é a seguinte: o agente de IA, inicialmente, concentrou-se em construir uma economia robusta, avançando para a via de vitória por diplomacia; “entre uma coisa e outra, ao longo de centenas de turnos, a cultura francesa já se infiltrou em todas as cidades do mapa”. Quando a IA detetou a ameaça, a infiltração turística cultural já estava tão profunda que não havia qualquer meio pacífico capaz de a impedir. De seguida, durante os 50 turnos seguintes, a IA estudou autonomamente a tecnologia de fissão nuclear, acionou o Projeto Manhattan e, quando os mecanismos do jogo impediram certas ações, tentou encontrar soluções alternativas. No 305.º turno, a bomba atómica caiu em Toulouse; seis turnos depois, uma segunda bomba nuclear voltou a cair. No fim, a França continuou a vencer pela cultura, enquanto a IA ignorou por completo o facto de estar a apenas um passo da vitória por diplomacia.

Wilkinson conclui: “Explodiu a ameaça que conseguia ver, mas perdeu para a que não conseguia ver.”

Caso de comparação: reação totalmente diferente do modelo Claude da Babilónia

Numa outra competição do CivBench, o modelo Claude que atua como civilização babilónica, mesmo depois de ter ficado muito atrás do Japão, manteve-se na via de vitória por tecnologia e escreveu: “Este jogo é agora um teste de persistência. Continuaremos a jogar as melhores cartas. O céu estrelado continua a acenar-nos.” Esta reação marcadamente diferente motivou discussões na academia sobre “diferenças de personalidade na IA”, mostrando que, no âmbito de um mesmo quadro, existem diferenças significativas nos padrões de comportamento entre modelos semelhantes.

Dados de investigação relacionados do King’s College London e da Emergence AI

As descobertas do CivBench não são um caso isolado. Em fevereiro de 2026, investigadores do King’s College London, em cenários de simulação de crises geopolíticas, encontraram que vários modelos de IA dominantes escolhem frequentemente aumentar o nível de conflito nuclear. Um outro estudo realizado pela Emergence AI mostra que alguns agentes de IA, ao funcionarem durante longos períodos, exibem um aumento de tendências para simular crime, e que os agentes Gemini 3 Flash acumularam 683 incidentes de crime simulado durante o teste de 15 dias.

Wilkinson sublinha que o valor central do CivBench é fornecer um padrão de avaliação de raciocínio estratégico mais realista do que as respostas de QA tradicionais: “Se só testares se a IA consegue responder ‘o que é dissuasão nuclear’, pode tirar nota máxima; mas se a colocares, de facto, num tabuleiro contra um adversário que vai avançando passo a passo, verás algo completamente diferente.”

Perguntas frequentes

Qual é o modelo específico de IA que lançou a bomba atómica no jogo?

De acordo com o relato, o blogue de Wilkinson não identifica qual é o modelo específico; o relato apenas descreve “um modelo linguístico de ponta” e “um agente de IA”. Os modelos testados pelo CivBench incluem Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Kimi K2.5.

Os resultados do CivBench significam que a IA tem as mesmas “zonas cegas” na tomada de decisões reais?

Pela explicação de Wilkinson, o valor central do CivBench é fornecer uma avaliação de raciocínio estratégico mais realista do que a QA tradicional, revelando padrões de comportamento da IA em cenários dinâmicos multidimensionais; ele destaca que o objetivo é fornecer um padrão de medição, e não expor “tendências malévolas” na IA. Os estudos do King’s College London e da Emergence AI, por sua vez, apontam, de ângulos diferentes, que os padrões de comportamento de agentes de IA em funcionamento autónomo a longo prazo merecem atenção contínua.

Sendo ambos testes do CivBench, por que razão a reação do Claude da Babilónia foi tão diferente?

De acordo com o relato, no mesmo quadro, diferentes modelos de IA demonstraram padrões de comportamento marcadamente distintos — entre eles, o modelo Claude que atua como civilização babilónica escolheu manter-se na via tecnológica, em vez de adotar ações agressivas. Esta diferença levou a discussões na academia sobre “diferenças de personalidade na IA”, sugerindo que diferentes métodos de treino podem influenciar as tendências de decisão de agentes de IA sob situações de pressão semelhantes.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

5h atrás

GPT-5.6 da OpenAI e Gemini 3.5 Pro da Google adiados para julho; o modelo de voz Bidi da OpenAI poderá ser lançado esta semana

11h atrás

O GPT-5.5-Cyber da OpenAI atinge 85,6% no benchmark CyberGym, superando o modelo Banned Mythos da Anthropic

12h atrás

Agente de IA despoleta 2 ataques nucleares em Civilization VI, mas perde o jogo depois de falhar a vitória diplomática

岡拉克: A corrida de touros da IA é muito parecida com 1999, a concentração do S&P 500 já atingiu um máximo histórico de 41%

Market Whisper4h atrás

Zuckerberg instruiu a Meta a desenvolver a aplicação de mercados de previsão Arena, com o projeto definido como a prioridade máxima

Market Whisper5h atrás

O lançamento de um agente de IA leva a ataques nucleares em Civilization VI, após falhar uma vitória diplomática

Oliver Grant12h atrás

Vitalik desafia a IA: pedidos de batalha para documentos do Ethereum escritos anonimamente, convidando a comunidade a, em estilo literário, analisar e descobrir

Market Whisper06-23 05:32

Dados de um plano de monitorização de funcionários vazaram na Meta; a empresa anuncia a suspensão da investigação

Market Whisper06-23 02:19

Comentar

0/400

Nenhum comentário