根据 Datadog 和卡内基梅隆大学的最新基准测试,GPT-5 在 ARFBench 测试中实现了 62.7% 的准确率,低于人类领域专家的 72.7%。ARFBench 是首个基于 63 起真实生产事故构建的人工智能基准,包含 750 道多项选择题,覆盖 142 项监控指标和 5.38 million(538 万)数据点——无合成数据。
人工智能模型在跨指标推理(第 III 级问题)上最为吃力,在该类别中 GPT-5 的 F1 仅为 47.5%。一个结合 AI 与人类判断的理论模型-专家神谕可达到 87.2% 的准确率,说明协作如何可能超越单独任何一方。Datadog 的混合模型 Toto-1.0-QA-Experimental 在榜单上以 63.9% 的准确率位居首位,在异常识别方面也优于 GPT-5。
相关快讯