花了好幾天在測 OpenAI Codex


即便開到 GPT-5.4 xhigh(最高推理等級),當主模型用還是會犯不少錯。
比如一次是誤解指令直接刪了不該刪的東西。另一次更離譜:它覺得自己寫入成功了,實際上根本沒有。同樣的事連犯三次,每次都是 Opus 在後面 review 才抓到。
目前我的結論是 Codex 很適合當工具人,給它明確的 code task 它會做得又快又好。但要當主模型去理解複雜的多步驟指令、判斷該不該動手?還是差一截。
目前還是會以 Opus 為主力 😎
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆