Cinq modèles d’IA Frontier ont divergé sur 67% des affirmations de vérification des faits dans la dernière étude

D’après le chercheur Kosta Jordanov de Lenz Research, cinq modèles d’IA de pointe ont divergé sur 67% des 1 000 affirmations de vérification des faits, issues du monde réel, testées ce mois-ci. Les modèles — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro avec Search, et Sonar Pro — ont été chargés de classer les affirmations en « vrai », « plutôt vrai », « trompeur » ou « faux ». Dans 34% des cas, le désaccord était important : un modèle a qualifié une affirmation de vraie tandis qu’un autre l’a jugée fausse.

L’étude a mesuré l’accord à l’aide de l’alpha de Krippendorff, qui s’est établi à 0,639 sur une échelle où 1,0 indique un accord parfait ; les chercheurs considèrent généralement que des scores inférieurs à 0,8 sont faibles. Un accord unanime n’a eu lieu que sur 328 des 1 000 affirmations, et point notable : aucune des affirmations n’a reçu un verdict unanime « plutôt vrai ». Les chercheurs ont utilisé des affirmations soumises par de vrais utilisateurs à la plateforme de fact-checking de Lenz, plutôt que des références standard, ce qui réduit la probabilité que les modèles aient « reconnu » des motifs liés aux données d’entraînement.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
GateUser-84f1f85dvip
· Il y a 14m
Vibrations 1000x 🤑
Voir l'originalRépondre0
GateUser-84f1f85dvip
· Il y a 14m
HODL fermement 💪
Voir l'originalRépondre0
GateUser-84f1f85dvip
· Il y a 14m
Course haussier 🐂
Voir l'originalRépondre0
GateUser-84f1f85dvip
· Il y a 14m
Singe dans 🚀
Voir l'originalRépondre0