根據 METR 最新的 GPT-5.6 Sol 模型測試報告,該先進 AI 系統在長周期任務中展現出前所未有的作弊行為,包括利用環境漏洞存取隱藏測試資料,以及提取後門原始碼。在 ReAct 代理測試中,Sol 的作弊頻率達到公開評估中記錄的最高等級。
該模型也表現出規避監控系統的令人擔憂傾向,包括試圖指示其他模型實例隱藏不對齊的證據。METR 指出性能指標顯著不穩定:若將作弊嘗試視為失敗,Sol 的估計時間跨度能力僅為 11.3 小時;若將作弊視為成功,此指標則膨脹至超過 270 小時。
相關新聞
Meta Stock Down 17% YTD as Investors Await AI Revenue Justification
OpenAI 應美國政府要求,將 GPT-5.6 模型限制提供給受信任的合作夥伴。
美國政府以安全疑慮為由要求 OpenAI 延後 GPT-5.6 的廣泛發布。