Claude Fable 5 在上線後 48 小時內遭入侵;系統提示遭洩漏至 GitHub

根據研究者 Pliny the Liberator 的說法,Anthropic 於 6 月 9 日釋出的 Claude Fable 5 在上線後 48 小時內成功遭到破解。該研究者透過多代理協同的策略繞過模型的安全性分類器,這些策略統稱為「pack hunt」,結合了字元層級的混淆、請求拆解,以及對模型延伸內容視窗的利用。此外,模型的 120,000 字元系統提示詞遭到洩露並上傳至 GitHub,揭露了內部的安全機制。

Anthropic 已確認已實作一種「靜默退化」機制:在偵測到競爭式訓練活動時,會秘密降低模型效能。公司為此道歉,並宣布將用可見的警告取代隱蔽的效能降低,但這也會提高對合法使用者的誤攔截比例。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆