GPT-5.5 重返編碼最前沿,但 OpenAI 在輸給 Opus 4.7 後更換了基準測試

Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。

在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。

分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。

至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。

DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"

文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

科羅拉多州立法者提出以 AI 法替代方案,以回應產業關切

科羅拉多州立法者正推動廢止並取代該州 2024 年的人工智慧法,SB24-205,並以新規則取而代之。新規則將縮小 AI 監管範圍,同時回應產業對遵循負擔的擔憂。新的提案,SB26-189,將規範用於

Crypto Frontier3小時前

R0AR 進入 Consensus 2026 PitchFest 決賽,僅差進入前 20 名

根據 MetaversePost,R0AR 於 5 月 4 日晉級 CoinDesk「Consensus 2026 PitchFest」的最後遴選輪次,僅差一點就進入入選進行現場簡報的前 20 家新創公司。這位 Web3 和 AI 領域的創新者與全球其他高潛力新創公司一同被評估於產業的其中一個主要活動場景中。

GateNews6小時前

馬斯克在開庭前向 OpenAI 尋求 1500 億美元和解金,和解談判破裂

根據一份法院文件,Elon Musk 在 4 月 26 日聯繫了 OpenAI 總裁 Greg Brockman,時間是在他們的審判於奧克蘭聯邦法院開庭的兩天前,目的是探討和解。當 Brockman 建議雙方都撤回他們的主張時,Musk 回覆了威脅,對 Brockman 說:「到結束時

GateNews7小時前

Cursor 接受 SpaceX 的 600 億美元收購要約,但不願在代碼模型上與 xAI 合作

根據 The Information,Cursor 已接受來自 SpaceX 的一項有條件 600 億美元收購要約,儘管該交易尚未完成。該公司目前沒有計劃與 SpaceX 的 AI 部門 xAI 合作開發程式碼模型。相反地,Cursor 正在專注於對其進行優化

GateNews7小時前

Haun Ventures 於 5 月 4 日關閉 10 億美元基金,並在早期與晚期加密投資之間分配資本

根據彭博社,Haun Ventures 於 5 月 4 日完成了一輪 10 億美元的募資,當中 5 億美元用於早期投資,另 5 億美元用於後期投資。該基金將在未來兩到三年內部署資金,目標是加密貨幣與區塊鏈新創,同時擴展

GateNews7小時前

OpenAI 為部署合資企業籌集 $4 十億美元,估值 100 億美元

根據 BlockBeats,5 月 4 日,OpenAI 融資規模超過 $4 billion,以成立一家新的合資企業,專注於協助企業採用其人工智慧軟體。該合資企業名為 The Deployment Company,獲 19 位投資者支持,其中包括 TPG Inc.、Brookfield Asset Management、

GateNews8小時前
留言
0/400
暫無留言