وبحسب الباحث كوستا جوردانوف في Lenz Research، اختلفت خمسة نماذج ذكاء اصطناعي “رائدة” على 67% من 1,000 ادعاء للتحقق من الحقائق في العالم الحقيقي تم اختبارها هذا الشهر. طُلب من النماذج—GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro وGemini 3 Pro مع Search وSonar Pro—تصنيف الادعاءات على أنها صحيحة، أو على الأغلب صحيحة، أو مضللة، أو خاطئة. وفي 34% من الحالات، كان الخلاف شديداً، حيث اعتبر أحد النماذج الادعاء صحيحاً بينما صنّفه نموذج آخر بأنه خاطئ.
قاسَت الدراسة درجة الاتفاق باستخدام ألفا كريبندورف (Krippendorff's alpha)، والتي سجلت 0.639 على مقياس تشير فيه الدرجة 1.0 إلى اتفاق مثالي؛ ويعتبر الباحثون عادة أن الدرجات الأقل من 0.8 ضعفاً. ولم يحدث اتفاق تام إلا في 328 من أصل 1,000 ادعاء، وبشكل لافت، لم تحصل أي ادعاءات على حكم تام “على الأغلب صحيحة”. استخدم الباحثون ادعاءات مقدمة من مستخدمين حقيقيين إلى منصة Lenz للتحقق من الحقائق، وليس معايير الاختبار القياسية، ما يقلل احتمال أن تقوم النماذج بنمطتها مقابل بيانات التدريب.