廣場
最新
熱門
新聞
我的主頁
發布
小企鹅阿批Penchan
2026-04-20 12:46:54
關注
花了好幾天在測 OpenAI Codex
即便開到 GPT-5.4 xhigh(最高推理等級),當主模型用還是會犯不少錯。
比如一次是誤解指令直接刪了不該刪的東西。另一次更離譜:它覺得自己寫入成功了,實際上根本沒有。同樣的事連犯三次,每次都是 Opus 在後面 review 才抓到。
目前我的結論是 Codex 很適合當工具人,給它明確的 code task 它會做得又快又好。但要當主模型去理解複雜的多步驟指令、判斷該不該動手?還是差一截。
目前還是會以 Opus 為主力 😎
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
WCTC交易王PK
54.23萬 熱度
#
美國尋求戰略比特幣儲備
5876.36萬 熱度
#
比特幣ETF期權限額提高4倍#
102.91萬 熱度
#
#聯準會利率不變但內部分歧加劇#
4.3萬 熱度
#
DeFi4月安全事件損失超6億美元
1019.53萬 熱度
置頂
網站地圖
花了好幾天在測 OpenAI Codex
即便開到 GPT-5.4 xhigh(最高推理等級),當主模型用還是會犯不少錯。
比如一次是誤解指令直接刪了不該刪的東西。另一次更離譜:它覺得自己寫入成功了,實際上根本沒有。同樣的事連犯三次,每次都是 Opus 在後面 review 才抓到。
目前我的結論是 Codex 很適合當工具人,給它明確的 code task 它會做得又快又好。但要當主模型去理解複雜的多步驟指令、判斷該不該動手?還是差一截。
目前還是會以 Opus 為主力 😎