Исследование, опубликованное в этом месяце исследователем Костой Джордановым из Lenz Research, показало, что пять передовых моделей ИИ не совпали по 67% из 1 000 проверок реальных фактов: разногласия возникали в 67% случаев, при этом единогласное согласие отмечалось лишь по 328 утверждениям. Исследование протестировало GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с Search и Sonar Pro на утверждениях, которые были поданы реальными пользователями на платформу фактчекинга. Модели получили оценку альфы Криппендорфа 0,639, что ниже порога 0,8, который исследователи обычно считают надежным. Разногласия возникали, несмотря на то, что все модели оценивали одинаковые утверждения с использованием той же четырехуровневой системы: true, mostly true, misleading или false. Результаты подчеркивают опасения по надежности, поскольку люди все чаще используют ИИ-системы для проверки фактов.
Исследование дало пяти моделям ИИ те же 1 000 проверок реальных фактов, поданные реальными пользователями. Моделям нужно было выбрать один из четырех ярлыков: true, mostly true, misleading или false. В исследовании использовались утверждения, поданные реальными людьми на фактчекинговую платформу Lenz, а не извлеченные из стандартных наборов тестов. «Большинство этих утверждений вряд ли появятся в каком-либо обучающем корпусе с прикрепленной золотой разметкой — нет канонического ответа, с которым можно сверять шаблоны, нет бенчмаркового лидерборда, на который можно опираться», — отмечается в статье.
По 672 из 1 000 утверждений хотя бы одна модель выбилась из большинства. В 34% случаев разногласия были серьезными: одна модель называла утверждение true, а другая — false. «Это не бенчмарковые элементы с публичными ключами ответов — это утверждения, которые реальные пользователи подали для проверки на фактчекинговую платформу», — говорится в исследовании. «По каждому утверждению может быть корректным только одно решение из четырех категорий, поэтому любое расхождение среди панели означает, что как минимум одно из решений модели не согласуется с этой 4-корзинной разметкой».
Статистическая мера согласия, называемая альфа Криппендорфа, составила 0,639 по шкале, где 1,0 означает идеальное согласие, а 0 — случайную вероятность. Исследование говорит, что это указывает на «существенное, но ограниченное согласие». «Решения моделей структурированы, а не случайны, но недостаточно согласованы, чтобы рассматривать панель как единый взаимозаменяемый судья», — отмечают исследователи. Обычно исследователи считают слабым всё, что ниже 0,8.
Исследователи привели примеры утверждений, где модели ИИ показали максимальное расхождение, включая: «Активный портфель Всемирного банка в Нигерии составляет более $16,4 миллиарда по состоянию на 2025 год». ChatGPT 5.4 сказал, что это «скорее true», в то время как Gemini 3 Pro назвал это «false», а его «сестринская» модель Gemini 3 Pro + Search оценила это как «misleading».
В другом примере моделям дали утверждение: «Дональд Трамп сказал, что нападение на Иран было отложено по просьбе союзников из Персидского залива». GPT-5.4 сказал, что это false, Claude Opus 4.7 назвал это mostly true, Gemini 3 Pro сказал false, а Gemini 3 Pro + Search оценил это как true.
Когда все пять моделей соглашались — а это происходило лишь по 328 из 1 000 утверждений — они почти никогда не соглашались, что что-то является misleading или mostly true. Лишь четыре утверждения получили единогласное решение «misleading». Ни одного не получило единогласного «mostly true». «Панель сходится на определенных решениях; именно середина шкалы, где все “ломается”», — выяснили исследователи. Единогласие случалось только на крайних значениях: либо утверждение было определенно true, либо определенно false.
Статья аккуратно подчеркивает это: «Большинство передовых моделей — не истина в последней инстанции. Большинство решений иногда бывает неверным; отдельная несогласная модель иногда оказывается права. Мы используем большинство как структурную точку отсчета для измерения разногласий, а не как замену корректности».
Что показало исследование Lenz Research об согласованности моделей ИИ при фактчекинге?
Исследование показало, что пять передовых моделей ИИ не совпали по 67% из 1 000 проверок фактов в реальном мире, поданных реальными пользователями. Единогласное согласие возникало только по 328 утверждениям, а модели получили оценку альфы Криппендорфа 0,639, что ниже порога надежности 0,8, который исследователи обычно считают приемлемым.
Как модели ИИ справились с примерным утверждением про портфель Всемирного банка в Нигерии?
ChatGPT 5.4 оценил утверждение «Активный портфель Всемирного банка в Нигерии составляет более $16,4 миллиарда по состоянию на 2025 год» как mostly true, в то время как Gemini 3 Pro назвал его false, а Gemini 3 Pro + Search оценил его как misleading, что демонстрирует серьезное расхождение между моделями по одному и тому же фактическому утверждению.
Почему в исследовании использовались утверждения, поданные реальными пользователями, а не стандартные тестовые наборы?
Исследователи использовали утверждения, поданные реальными людьми на фактчекинговую платформу Lenz, потому что большинство этих утверждений вряд ли появятся в любом обучающем корпусе с прикрепленной золотой разметкой, устраняя возможность того, что модели будут “подгонять” свои ответы под бенчмарковые ключи, и обеспечивая более реалистичную проверку надежности фактчекинга.
Связанные новости
Топ-3 банка Японии получают доступ к ИИ от OpenAI для киберзащиты
Виталик подтвердил, что CROPS AI и слой доступа к сети Ethereum пересекаются, а ключевым инструментом выступает DeepSeek V4
Быстрый режим Anthropic Opus 4.8 снижен до 10 долларов, Mythos полностью запущен в течение нескольких недель
Исследование Entelligence AI: 82% расходов на разработку ИИ теряются из-за переписывания уязвимостей и задержек
Gemini запускает AI-центр управления, работающий на Grok, и сообщает о смешанных результатах за 1 квартал