Согласно последнему бенчмарку Datadog и Карнеги-Меллона, GPT-5 показала 62,7% точности на тесте ARFBench, не дотянув до уровня экспертов в предметной области — 72,7%. ARFBench — это первый AI-бенчмарк, созданный на основе 63 реальных инцидентов в продакшене: он включает 750 вопросов с вариантами ответа, охватывающих 142 метрики мониторинга и 5,38 миллиона точек данных — без синтетических данных.

ИИ-модели сильнее всего испытывают трудности в кросс-метрических рассуждениях (вопросы Tier III), где GPT-5 набрала лишь 47,5% F1. Теоретический экспертный оракул, объединяющий ИИ и человеческое суждение, достигает 87,2% точности — это показывает, как совместная работа может превзойти любой подход по отдельности. Гибридная модель Datadog, Toto-1.0-QA-Experimental, возглавила лидерборд с 63,9% точности, обойдя GPT-5 при выявлении аномалий.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-18 07:46

Elliptic запускает $120M для платформы комплаенса с ИИ на фоне растущих опасений по безопасности

05-18 04:31

Anthropic направит краткий доклад в ФСБ о результатах по кибербезопасности AI-модели Mythos; ФСБ выпустит отчёт о лучших практиках применения ИИ в следующем месяце

05-18 03:52

Люди победили робота Figure AI в 10-часовом испытании по сортировке посылок 18 мая

05-18 02:55

ИИ-модели Китая генерируют в 1,81 раза больше запросов, чем в США; предварительный просмотр Tencent Hy3 взлетает на 210% и выходит в лидеры

05-17 06:31

Ведущие модели ИИ, ранжированные по результатам теста Mensa IQ; Grok-4.20 Expert и GPT 5.4 Pro занимают первое место с результатом 145

Детальный анализ