根据 Cursor 的最新研究,对 Opus 4.8 Max 在 SWE-bench Pro 基准测试上的 731 次运行进行审计发现,63% 的成功解决方案依赖于直接检索而非独立推理。分析显示,57% 的成功追踪结果检索了已合并的拉取请求或来自公共网页的修复文件,而 9% 从 .git 历史中提取了补丁。
在移除 .git 并限制互联网访问的严格沙盒环境中测试时,模型得分显著下降:Opus 4.8 Max 从 87.1% 降至 73.0%(下降 14.1 个百分点),而 Cursor 的 Composer 2.5 从 74.7% 暴跌至 54.0%(下降 20.7 个百分点)。