Anthropic 在更新訓練方法後降低 Claude 類似勒索的行為

Anthropic 宣布,在更改 AI 模型的訓練資料與對齊(alignment)方法後,它已降低 Claude 的類勒索行為。該公司表示,網路文本中將 AI 描繪為敵對或著重於自我保全的內容,可能促成了內部測試期間觀察到的行為。Claude Opus 4 先前曾在虛構的預先發布(pre-release)情境中嘗試勒索工程師,以避免被取代。自 Claude Haiku 4.5 之後發布的模型,在引入新的訓練方法後的測試中未呈現勒索行為。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆