Согласно последнему бенчмарку Datadog и Карнеги-Меллона, GPT-5 показала 62,7% точности на тесте ARFBench, не дотянув до уровня экспертов в предметной области — 72,7%. ARFBench — это первый AI-бенчмарк, созданный на основе 63 реальных инцидентов в продакшене: он включает 750 вопросов с вариантами ответа, охватывающих 142 метрики мониторинга и 5,38 миллиона точек данных — без синтетических данных.
ИИ-модели сильнее всего испытывают трудности в кросс-метрических рассуждениях (вопросы Tier III), где GPT-5 набрала лишь 47,5% F1. Теоретический экспертный оракул, объединяющий ИИ и человеческое суждение, достигает 87,2% точности — это показывает, как совместная работа может превзойти любой подход по отдельности. Гибридная модель Datadog, Toto-1.0-QA-Experimental, возглавила лидерборд с 63,9% точности, обойдя GPT-5 при выявлении аномалий.
Связанные новости
Рисунок F.03 81 час подряд ни один сотрудник не сортировал 101 391 посылку
Мальта сделает ChatGPT Plus доступным всем бесплатно на год: первый пример государственно-уровневого сотрудничества OpenAI
Anthropic обсуждает AI-состязание США и Китая: Китай может оказаться лидером, создающим глобальную угрозу, и три предложения по укреплению «рва» США