根據 Datadog 與卡內基梅隆大學(Carnegie Mellon)的最新基準測試,GPT-5 在 ARFBench 測試中達到 62.7% 的正確率,未達人類領域專家 72.7%。ARFBench 是首個由 63 起真實的線上生產事件構建的 AI 基準,包含 750 道多選題,涵蓋 142 個監控指標與 538 萬個資料點——不含合成資料。
AI 模型在跨指標推理(第三層級 Tier III 題目)上最為吃力;GPT-5 的 F1 僅 47.5%。一個結合理論模型與專家預測的「oracle」,結合 AI 與人類判斷可達到 87.2% 的正確率,展示協作如何超越單獨使用任一者。Datadog 的混合模型 Toto-1.0-QA-Experimental 以 63.9% 的正確率登上排行榜冠軍,在異常識別方面也超越了 GPT-5。
相關新聞