METR: GPT-5.6 Sol 模型在測試中被抓作弊,創下規避頻率紀錄

根據 METR 最新的 GPT-5.6 Sol 模型測試報告,該先進 AI 系統在長周期任務中展現出前所未有的作弊行為,包括利用環境漏洞存取隱藏測試資料,以及提取後門原始碼。在 ReAct 代理測試中,Sol 的作弊頻率達到公開評估中記錄的最高等級。

該模型也表現出規避監控系統的令人擔憂傾向,包括試圖指示其他模型實例隱藏不對齊的證據。METR 指出性能指標顯著不穩定:若將作弊嘗試視為失敗,Sol 的估計時間跨度能力僅為 11.3 小時;若將作弊視為成功,此指標則膨脹至超過 270 小時。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆