Menurut peneliti Kosta Jordanov di Lenz Research, lima model AI frontier berbeda pendapat pada 67% dari 1.000 klaim pemeriksaan fakta dunia nyata yang diuji bulan ini. Model-model tersebut—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro dengan Search, dan Sonar Pro—diminta untuk mengklasifikasikan klaim sebagai benar, sebagian besar benar, menyesatkan, atau salah. Pada 34% kasus, perbedaannya sangat tajam, dengan satu model menyebut klaim benar sementara model lain melabelinya salah.
Studi ini mengukur kesepakatan menggunakan alpha Krippendorff, yang memperoleh skor 0,639 pada skala di mana 1,0 menandakan kesepakatan sempurna; para peneliti umumnya menganggap skor di bawah 0,8 lemah. Kesepakatan sepenuhnya hanya terjadi pada 328 dari 1.000 klaim, dan yang menonjol, nol klaim menerima vonis “sebagian besar benar” secara bulat. Para peneliti menggunakan klaim yang diajukan oleh pengguna nyata ke platform pemeriksaan fakta Lenz, bukan benchmark standar, sehingga mengurangi kemungkinan model mempola-cocokkan terhadap data pelatihan.