Cinco modelos de IA de fronteira discordam em 67% das alegações de checagem de fatos, aponta estudo

2026-05-29 17:33:32

Um estudo publicado neste mês pelo pesquisador Kosta Jordanov, da Lenz Research, descobriu que cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de checagem de fatos, com concordância unânime ocorrendo apenas em 328 alegações. A pesquisa testou GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro em alegações enviadas por usuários reais a uma plataforma de checagem de fatos. Os modelos alcançaram uma pontuação de Krippendorff's alpha de 0,639, ficando abaixo do limite de 0,8 que pesquisadores geralmente consideram confiável. As discordâncias ocorreram apesar de todos os modelos avaliarem alegações idênticas usando o mesmo sistema de quatro rótulos: true, mostly true, misleading ou false. Os resultados destacam preocupações com a confiabilidade à medida que as pessoas recorrem cada vez mais a sistemas de IA para checar fatos.

Metodologia do Estudo Usada Alegações Enviadas por Usuários Reais

A pesquisa deu aos cinco modelos de IA as mesmas 1.000 alegações reais de checagem de fatos enviadas por usuários reais. Os modelos tiveram que selecionar um entre quatro rótulos: true, mostly true, misleading ou false. O estudo usou alegações enviadas por pessoas reais para a plataforma de checagem de fatos da Lenz, em vez de buscar em conjuntos de teste padrão. “A maior parte dessas alegações é improvável de aparecer em qualquer corpus de treino com um rótulo gold anexado — não há uma chave de resposta canônica para fazer pareamento de padrões, não existe um ranking de benchmark para ancorar”, observa o artigo.

Cinco Modelos de IA Discordaram em 672 de 1.000 Alegações

Em 672 de 1.000 alegações, pelo menos um modelo se afastou da maioria. Em 34% dos casos, a discordância foi severa: um modelo chamou uma alegação de true enquanto outro chamou de false. “Estas não são peças de benchmark com chaves de resposta públicas — são alegações que usuários reais enviaram para verificação a uma plataforma de checagem de fatos”, diz o estudo. “Apenas um veredito pode estar correto por alegação, então qualquer discordância entre o painel significa que pelo menos um modelo entrega um veredito inconsistente com os rótulos dentro desta rubrica de 4 baldes.”

Pontuação de Confiabilidade Estatística Cai Abaixo do Limite Padrão

A medida estatística de concordância, chamada Krippendorff's alpha, ficou em 0,639 numa escala em que 1,0 significa concordância perfeita e 0 significa chance aleatória. O estudo diz que isso indica “concordância não trivial, mas limitada”. “Os vereditos dos modelos são estruturados, em vez de aleatórios, mas não são consistentes o suficiente para tratar o painel como um único juiz intercambiável”, observam os pesquisadores. Em geral, pesquisadores consideram fraco qualquer valor abaixo de 0,8.

Modelos Mostraram Divergência Severa em Alegações de Exemplo

Os pesquisadores forneceram alegações de exemplo nas quais os modelos de IA mostraram a maior divergência, incluindo “O portfólio ativo do Banco Mundial na Nigéria está em mais de US$ 16,4 bilhões até 2025”. O ChatGPT 5.4 disse que era “mostly true”, enquanto o Gemini 3 Pro chamou de “false” e seu modelo irmão Gemini 3 Pro + Search avaliou como “misleading”.

Em outro exemplo, os modelos receberam a alegação: “Donald Trump disse que um ataque ao Irã foi adiado a pedido de aliados do Golfo”. O GPT-5.4 disse que era false, o Claude Opus 4.7 chamou de mostly true, o Gemini 3 Pro disse false e o Gemini 3 Pro + Search avaliou como true.

Concordância Unânime Ocorreu Apenas nos Extremos Fatuais

Quando todos os cinco modelos concordaram — o que aconteceu em apenas 328 de 1.000 alegações — eles quase nunca concordaram que algo era misleading ou mostly true. Apenas quatro alegações receberam um veredito unânime “misleading”. Nenhuma recebeu “mostly true” unânime. “O painel converge para vereditos definitivos; o meio da rubrica é onde ela se fragmenta”, concluíram os pesquisadores. A unanimidade só ocorreu nos extremos: ou a alegação era definitivamente true ou definitivamente false.

O artigo é cuidadoso ao apontar isso: “A maioria dos modelos avançados não é verdade absoluta. O veredito da maioria às vezes está errado; um modelo dissidente individual às vezes acerta. Usamos a maioria como referência estrutural para medir a discordância, e não como substituta de correção.”

FAQ

O que o estudo da Lenz Research encontrou sobre a concordância de modelos de IA na checagem de fatos?
O estudo descobriu que cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de checagem de fatos enviadas por usuários reais. A concordância unânime ocorreu apenas em 328 alegações, e os modelos alcançaram uma pontuação de Krippendorff's alpha de 0,639, abaixo do limite de confiabilidade de 0,8 que pesquisadores geralmente consideram aceitável.

Como os modelos de IA se saíram na alegação de exemplo sobre o portfólio do Banco Mundial da Nigéria?
O ChatGPT 5.4 avaliou a alegação “O portfólio ativo do Banco Mundial na Nigéria está em mais de US$ 16,4 bilhões até 2025” como mostly true, enquanto o Gemini 3 Pro chamou de false e o Gemini 3 Pro + Search avaliou como misleading, mostrando uma divergência severa entre os modelos na mesma alegação factual.

Por que o estudo usou alegações enviadas por usuários reais em vez de conjuntos de teste padrão?
Os pesquisadores usaram alegações enviadas por pessoas reais para a plataforma de checagem de fatos da Lenz porque a maioria dessas alegações é improvável de aparecer em qualquer corpus de treino com um rótulo gold anexado, eliminando a possibilidade de os modelos fazerem pareamento de padrões contra chaves de resposta de benchmarks e proporcionando um teste mais realista da confiabilidade na checagem de fatos.

Ver fonte

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

05-29 17:32

Cinco modelos de IA de fronteira discordaram em 67% das alegações de checagem de fatos no estudo mais recente

05-29 06:33

A participação de mercado do ChatGPT cai para 60% enquanto a Gemini dispara para 50% nos últimos seis meses

05-29 04:17

A Apple reestrutura a Siri com o modelo Gemini de trilhões de parâmetros e computação confidencial da Nvidia

Os 3 principais bancos do Japão ganham acesso à IA da OpenAI para defesa em cibersegurança

Oliver Grant05-29 08:43

Vitalik confirma sobreposição entre CROPS AI e a camada de acesso do Ethereum, com o DeepSeek V4 como ferramenta central

Market Whisper05-29 03:50

O modo rápido do Anthropic Opus 4.8 cai para US$ 10, Mythos totalmente ativo em semanas

Market Whisper05-29 03:46

Investigação da Entelligence AI: 82% dos gastos com engenharia de IA se perdem com retrabalho de vulnerabilidades e atrasos

Market Whisper05-29 02:51

Gemini Lança Central de Comando de IA Impulsionada pelo Grok, Reporta Resultados Mistos no 1T

Oliver Grant05-28 20:45

Comentário

0/400

Sem comentários