Cinco modelos de IA da Frontier discordam em 67% das alegações de verificação de factos, conclui um estudo

Um estudo publicado este mês pela investigadora Kosta Jordanov, na Lenz Research, concluiu que cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de verificação de factos, com concordância unânime apenas em 328 alegações. A investigação testou o GPT-5.4, o Claude Opus 4.7, o Gemini 3 Pro, o Gemini 3 Pro com Search e o Sonar Pro em alegações submetidas por utilizadores reais a uma plataforma de verificação de factos. Os modelos obtiveram uma pontuação de Krippendorff's alpha de 0,639, ficando aquém do limiar de 0,8 que os investigadores, em geral, consideram fiável. As discordâncias ocorreram apesar de todos os modelos avaliarem alegações idênticas usando o mesmo sistema de quatro rótulos: true, mostly true, misleading ou false. Os resultados destacam preocupações com a fiabilidade à medida que as pessoas recorrem cada vez mais a sistemas de IA para a verificação de factos.

Metodologia do estudo: alegações submetidas por utilizadores reais

A investigação deu aos cinco modelos de IA as mesmas 1.000 alegações reais de verificação de factos submetidas por utilizadores reais. Os modelos tiveram de escolher um entre quatro rótulos: true, mostly true, misleading ou false. O estudo usou alegações submetidas por pessoas reais na plataforma de verificação de factos da Lenz, em vez de as retirar de conjuntos de teste standard. «A maior parte destas alegações é improvável de aparecer em qualquer corpus de treino com um rótulo gold associado — não há uma chave canónica de respostas para corresponder padrões, não existe um ranking de referência para ancorar», observa o artigo.

Cinco modelos de IA discordaram em 672 de 1.000 alegações

Em 672 de 1.000 alegações, pelo menos um dos modelos se afastou da maioria. Em 34% dos casos, a divergência foi acentuada: um modelo classificou uma alegação como true enquanto outro a classificou como false. «Estas não são peças de referência com chaves de respostas públicas — são alegações submetidas por utilizadores reais para validação numa plataforma de verificação de factos», lê-se no estudo. «Só um dos veredictos pode estar correto por alegação, pelo que qualquer desacordo entre o painel significa que pelo menos um modelo deu um veredicto inconsistente com os rótulos nesta grelha de 4 categorias.»

Pontuação estatística de fiabilidade fica abaixo do limiar

A medida estatística de concordância, chamada Krippendorff's alpha, ficou em 0,639 numa escala em que 1,0 significa concordância perfeita e 0 significa probabilidade aleatória. O estudo afirma que isto indica «concordância não trivial, mas limitada». «Os veredictos dos modelos são estruturados, em vez de aleatórios, mas não são suficientemente consistentes para tratar o painel como um único juiz intercambiável», indicam os investigadores. Em geral, os investigadores consideram que qualquer valor abaixo de 0,8 é fraco.

Modelos mostraram divergência acentuada em alegações de exemplo

Os investigadores apresentaram alegações de exemplo em que os modelos de IA revelaram a maior divergência, incluindo «O portefólio ativo do Banco Mundial na Nigéria representa mais de 16,4 mil milhões de dólares em 2025». O ChatGPT 5.4 disse que era «mostly true», enquanto o Gemini 3 Pro a classificou como «false» e o modelo irmão Gemini 3 Pro + Search avaliou como «misleading».

Num outro exemplo, os modelos receberam a alegação: «Donald Trump disse que um ataque ao Irão foi adiado a pedido dos Aliados do Golfo». O GPT-5.4 disse que era false, o Claude Opus 4.7 classificou como mostly true, o Gemini 3 Pro disse false, e o Gemini 3 Pro + Search classificou como true.

Concordância unânime apenas ocorreu nos extremos factuais

Quando todos os cinco modelos concordaram — o que aconteceu apenas em 328 de 1.000 alegações — quase nunca concordaram que algo era misleading ou mostly true. Apenas quatro alegações receberam um veredicto unânime de «misleading». Zero recebeu «mostly true» unânime. «O painel converge em veredictos definitivos; o meio da grelha é onde se parte», concluíram os investigadores. A unanimidade só aconteceu nos extremos: ou a alegação era definitivamente true ou definitivamente false.

O artigo tem o cuidado de salientar isto: «A maioria dos modelos avançados não é a verdade de referência. O veredicto da maioria está, por vezes, errado; um modelo que discorda individualmente está, por vezes, certo. Usamos a maioria como ponto de referência estrutural para medir a discordância, não como substituto da correção.»

FAQ

O que é que o estudo da Lenz Research encontrou sobre a concordância entre modelos de IA na verificação de factos? O estudo concluiu que cinco modelos avançados de IA discordaram em 67% das 1.000 alegações reais de verificação de factos submetidas por utilizadores reais. A concordância unânime ocorreu apenas em 328 alegações, e os modelos obtiveram uma pontuação de Krippendorff's alpha de 0,639, abaixo do limiar de fiabilidade de 0,8 que os investigadores, em geral, consideram aceitável.

Como é que os modelos de IA se saíram na alegação de exemplo sobre o portefólio do Banco Mundial na Nigéria? O ChatGPT 5.4 classificou a alegação «O portefólio ativo do Banco Mundial na Nigéria representa mais de 16,4 mil milhões de dólares em 2025» como mostly true, enquanto o Gemini 3 Pro a classificou como false e o Gemini 3 Pro + Search avaliou-a como misleading, mostrando uma divergência acentuada entre os modelos na mesma alegação factual.

Porque é que o estudo usou alegações submetidas por utilizadores reais em vez de conjuntos de teste standard? Os investigadores usaram alegações submetidas por pessoas reais na plataforma de verificação de factos da Lenz porque a maior parte destas alegações é improvável de aparecer em qualquer corpus de treino com um rótulo gold associado, eliminando a possibilidade de os modelos corresponderem padrões às chaves de respostas de referências e proporcionando um teste mais realista da fiabilidade da verificação de factos.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário