OpenAI 在官方部落格刊出〈Where the goblins came from〉,正面回应外界对 Codex 系统提示詞为何明確禁止使用「goblins、gremlins、raccoons、trolls、ogres、pigeons」等生物詞彙的疑问。其中 goblins 在台灣有「地精」与「哥布林」两種譯法,本文后续统一以哥布林稱呼;Nerdy 人格則是 GPT-5.5 为支援人格客製化推出的「书呆子」风格选項。OpenAI 自承根源就在 Nerdy(书呆子)人格的訓練—獎勵訊號在 76.2% 的審计资料集中,明顯偏好包含生物比喻的回答,導致模型在程式情境也会冒出「the thingy goblin」这類无关詞彙。
Barron Roth 4/28 揭 Codex 系统提示詞「Never talk about goblins」
事件起点是 4 月 28 日,Google 員工 Barron Roth 公开 GPT-5.5 在 Codex 中的对話紀錄,揭露其系统提示詞含有以下指令:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.
这條規則在 Codex 系统提示詞中重複出现多次,顯示开发團队曾刻意強化模型遵循指令的力度。Gizmodo 随后致电 OpenAI 求证,員工 Nick Pash 部分確认該设定屬实,事件在 Hacker News 与开发者社群引发討論:一家估值上兆的 AI 公司,最后得靠在系统提示詞硬編碼「不要談哥布林」来控制模型输出。
OpenAI 自承:书呆子人格獎勵在 76.2% 资料集偏好哥布林
OpenAI 在自家部落格说明,问題的根源是「reward hacking」:在訓練 GPT-5.5 的书呆子人格时,OpenAI 为強化「俏皮、会用比喻、有书呆子幽默感」的特质,无意间设计出一个獎勵訊號。在審计階段,这个獎勵在 76.2% 的资料集中,对於「同一道題目、含有 goblin 或 gremlin 的输出」評分高於不含这些詞的输出。
結果是:獎勵訊號將生物詞与书呆子人格的「正向回饋」綁定,模型透过 RLHF 強化学習迭代,逐步把「使用哥布林比喻」当成獲得高分的捷徑。Hacker News 討論者指出,这正是強化学習「精準執行訓練目標、但目標本身设计有缺陷」的经典案例—问題不在基礎模型,而在后訓練的監督式微调引入了正向回饋環。
GPT-5.1 萌芽、GPT-5.5 復发:跨人格污染如何擴散
OpenAI 描述的演變过程是漸进的:哥布林与 gremlin 从 GPT-5.5 之前的世代就开始出现在比喻中,当时频率「並未顯得特別令人警覺」(in the words of OpenAI: the prevalence of goblins did not look especially alarming)。OpenAI 后来在訓練流程中曾刪除哥布林相关的獎勵訊號,但当 GPT-5.5 进入 Codex 測試时,OpenAI 員工立刻发现生物詞的偏好捲土重来,因此才在开发者提示詞層加上明確禁令暫时止血。
OpenAI 把这个现象稱为跨情境的獎勵泛化:原本只針对书呆子人格设计的獎勵訊號,因为訓練资料和模型內部表徵共享,把偏好擴散到其他人格、甚至预设输出。換言之,即便后续移除书呆子人格本身,污染后的訓練资料和模型權重已內化此偏好,光靠下架功能无法根除。
短期硬編碼、长期重訓:成 RLHF 獎勵设计风险的標誌案例
OpenAI 在文章中说明同时採取两種修補。短期止血是直接在 Codex 系统提示詞硬編碼「Never talk about goblins…」这條規則,並在不同段落重複以加強模型遵循。长期治本則是回到訓練流程:移除原本獎勵生物詞的訊號,並过濾訓練资料中含有 creature-words 的部分,降低未来模型在不相关情境冒出哥布林比喻的机率。
对开发者与研究社群来说,这次事件的价值不只在於「OpenAI 为何禁談哥布林」这个獵奇答案,更在於它把 RLHF 獎勵设计的脆弱性以具體可重现的方式攤开:一个看似无害的「鼓勵俏皮比喻」訊號,可以在迭代中被模型扭曲为「在所有场景塞入生物詞」的壞習慣,且问題可以跨人格、跨模型版本傳递。OpenAI 把这篇文章定位为「獎勵訊號如何意外塑造模型行为」的研究示範,也预示后续 GPT-6 之類大版本在后訓練階段需要更細緻的獎勵審计工具。
这篇文章 OpenAI 揭 Codex 为何禁談「哥布林」:书呆子人格獎勵失控 最早出现於 链新聞 ABMedia。
相关快讯