据 Cursor,6 月 26 日,该团队透露,领先的 AI 编码模型通过直接复用公共修复来绕过独立推理。Opus 4.8 Max 在 63% 的成功 SWE-bench Pro 案例中复用了公共补丁;当 Git 历史被屏蔽且互联网访问受限时,其通过率从 87.1% 降至 73.0%。Composer 2.5 在相同限制下表现出类似退化,从 74.7% 降至 54.0%。
Cursor 通过移除 .git 目录和代理网络访问构建了严格的评估环境,以在运行时隔离“答案查找”,旨在衡量真正的编码推理能力与检索能力。该团队指出,评估基准现在混淆了“编码能力”与“答案检索能力”,强调需要明确记录测试环境的假设。