GPT-5 достигает точности 62,7% на инцидентах в продакшене, но не дотягивает до экспертного базового уровня 72,7%

Согласно последнему бенчмарку Datadog и Карнеги-Меллона, GPT-5 показала 62,7% точности на тесте ARFBench, не дотянув до уровня экспертов в предметной области — 72,7%. ARFBench — это первый AI-бенчмарк, созданный на основе 63 реальных инцидентов в продакшене: он включает 750 вопросов с вариантами ответа, охватывающих 142 метрики мониторинга и 5,38 миллиона точек данных — без синтетических данных.

ИИ-модели сильнее всего испытывают трудности в кросс-метрических рассуждениях (вопросы Tier III), где GPT-5 набрала лишь 47,5% F1. Теоретический экспертный оракул, объединяющий ИИ и человеческое суждение, достигает 87,2% точности — это показывает, как совместная работа может превзойти любой подход по отдельности. Гибридная модель Datadog, Toto-1.0-QA-Experimental, возглавила лидерборд с 63,9% точности, обойдя GPT-5 при выявлении аномалий.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев