По словам исследователя Kosta Jordanov из Lenz Research, пять фронтирных AI-моделей не сошлись во мнениях по 67% из 1 000 проверяемых в реальных условиях утверждений в этом месяце. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search и Sonar Pro — предложили классифицировать утверждения как true, mostly true, misleading или false. В 34% случаев разногласия были крайне сильными: одна модель назвала утверждение true, а другая — false.
Исследование оценивало согласие с помощью альфы Криппендорфа; ее значение составило 0,639 по шкале, где 1,0 означает идеальное согласие. Исследователи обычно считают, что значения ниже 0,8 — слабые. Единогласное согласие наблюдалось лишь по 328 из 1 000 утверждений, и особенно важно: ни одно утверждение не получило единогласный вердикт «mostly true». Для исследования использовались утверждения, поданные реальными пользователями на платформу Lenz для fact-checking, а не стандартные бенчмарки — это снижает вероятность того, что модели подгоняют ответы под шаблоны из обучающих данных.