GPT-5 在生产事故上的准确率达到 62.7%,未达到 72.7% 的专家基准

根据 Datadog 和卡内基梅隆大学的最新基准测试,GPT-5 在 ARFBench 测试中实现了 62.7% 的准确率,低于人类领域专家的 72.7%。ARFBench 是首个基于 63 起真实生产事故构建的人工智能基准,包含 750 道多项选择题,覆盖 142 项监控指标和 5.38 million(538 万)数据点——无合成数据。

人工智能模型在跨指标推理(第 III 级问题)上最为吃力,在该类别中 GPT-5 的 F1 仅为 47.5%。一个结合 AI 与人类判断的理论模型-专家神谕可达到 87.2% 的准确率,说明协作如何可能超越单独任何一方。Datadog 的混合模型 Toto-1.0-QA-Experimental 在榜单上以 63.9% 的准确率位居首位,在异常识别方面也优于 GPT-5。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论