По словам исследователя Kosta Jordanov из Lenz Research, пять фронтирных AI-моделей не сошлись во мнениях по 67% из 1 000 проверяемых в реальных условиях утверждений в этом месяце. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search и Sonar Pro — предложили классифицировать утверждения как true, mostly true, misleading или false. В 34% случаев разногласия были крайне сильными: одна модель назвала утверждение true, а другая — false.

Исследование оценивало согласие с помощью альфы Криппендорфа; ее значение составило 0,639 по шкале, где 1,0 означает идеальное согласие. Исследователи обычно считают, что значения ниже 0,8 — слабые. Единогласное согласие наблюдалось лишь по 328 из 1 000 утверждений, и особенно важно: ни одно утверждение не получило единогласный вердикт «mostly true». Для исследования использовались утверждения, поданные реальными пользователями на платформу Lenz для fact-checking, а не стандартные бенчмарки — это снижает вероятность того, что модели подгоняют ответы под шаблоны из обучающих данных.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-29 10:15

OpenAI расширяет доступ к GPT-Rosalind для правительства США и союзников 29 мая

05-29 09:18

Google Gemini внедряет шесть мер оптимизации, включая бесплатный Flash-Lite и удвоенные лимиты на видео

05-29 06:33

Доля рынка ChatGPT падает до 60%, поскольку Gemini за последние шесть месяцев растёт до 50%

05-29 06:25

Отчёт Microsoft: основанное на ИИ принятие решений составляет 28% активности на рабочем месте по состоянию на 29 мая

05-29 04:17

Apple реорганизует Siri с моделью Gemini на триллион параметров и Nvidia Confidential Computing

Детальный анализ