Cinco modelos de IA Frontier discordaram em 67% das alegações de verificação de factos no mais recente estudo

De acordo com o investigador Kosta Jordanov, da Lenz Research, cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de fact-checking testadas este mês. Os modelos — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro — foram convidados a classificar as alegações como verdadeiras, maioritariamente verdadeiras, enganosas ou falsas. Em 34% dos casos, a divergência foi acentuada: um modelo classificou uma alegação como verdadeira enquanto outro a rotulou como falsa.

O estudo mediu a concordância usando o alfa de Krippendorff, que teve uma pontuação de 0,639 numa escala em que 1,0 indica concordância perfeita; em geral, os investigadores consideram pontuações abaixo de 0,8 fracas. A concordância unânime ocorreu apenas em 328 de 1.000 alegações e, de forma notável, nenhuma alegação recebeu um veredicto unânime de “maioritariamente verdadeira”. Os investigadores usaram alegações submetidas por utilizadores reais à plataforma de fact-checking da Lenz em vez de benchmarks standard, reduzindo a probabilidade de os modelos corresponderem padrões a dados de treino.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
GateUser-84f1f85dvip
· 14m atrás
Vibrações 1000x 🤑
Ver originalResponder0
GateUser-84f1f85dvip
· 14m atrás
Segure firme 💪
Ver originalResponder0
GateUser-84f1f85dvip
· 14m atrás
Corrida de Touros 🐂
Ver originalResponder0
GateUser-84f1f85dvip
· 14m atrás
Macaco em 🚀
Ver originalResponder0