GPT-5.5 重返編碼最前沿，但 OpenAI 在輸給 Opus 4.7 後更換了基準測試

2026-04-27 05:17:43

Gate 新聞訊息，4月27日——SemiAnalysis，一家半導體與 AI 分析公司，發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現：GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿，且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用；此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法，代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。

在實際測試中，出現了明顯的分工。Claude 負責新的專案規劃與初始設定，而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力，但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中，Claude 會自動複製參考頁面版面，但卻捏造大量資料；而 Codex 則跳過版面，但提供了顯著更準確的資料。

分析揭示了一個基準測試操控細節：OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而，GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中：GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越，且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。

至於 Opus 4.7，Anthropic 在發布一週後發表了死因剖析式分析，承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化，但都被否定為主觀觀察。此外，Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%，而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。

DeepSeek V4 被評估為「跟上前沿但不領先」，並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出：「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」，並評論稱：「Claude 在自己的語言中擊敗了中文模型。"

文章引入一個關鍵概念：模型定價應以「每項任務成本」來評估，而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens)，但它能用更少的 token 完成相同的任務，因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1，低於 Claude Code 的 100:1。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。