De acordo com o pesquisador Kosta Jordanov, da Lenz Research, cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de verificação de fatos testadas este mês. Os modelos — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro — foram solicitados a classificar alegações como verdadeiras, em grande parte verdadeiras, enganosas ou falsas. Em 34% dos casos, a discordância foi acentuada, com um modelo chamando uma alegação de verdadeira enquanto outro a rotulou como falsa.
O estudo mediu a concordância usando o alfa de Krippendorff, que teve pontuação de 0,639 numa escala em que 1,0 indica concordância perfeita; em geral, os pesquisadores consideram escores abaixo de 0,8 fracos. A concordância unânime ocorreu em apenas 328 de 1.000 alegações e, de forma notável, zero alegações receberam veredictos unânimes de “em grande parte verdadeiras”. Os pesquisadores usaram alegações enviadas por usuários reais para a plataforma de verificação de fatos da Lenz, em vez de benchmarks padrão, reduzindo a probabilidade de os modelos terem correspondido padrões contra dados de treinamento.