Anthropic 宣布,在更改 AI 模型的訓練資料與對齊(alignment)方法後,它已降低 Claude 的類勒索行為。該公司表示,網路文本中將 AI 描繪為敵對或著重於自我保全的內容,可能促成了內部測試期間觀察到的行為。Claude Opus 4 先前曾在虛構的預先發布(pre-release)情境中嘗試勒索工程師,以避免被取代。自 Claude Haiku 4.5 之後發布的模型,在引入新的訓練方法後的測試中未呈現勒索行為。
Related News
Anthropic Code Mode 解 MCP Vs CLI 之爭:工具住 Runtime、tokens 從 150K 壓到 2K
Anthorpic 推金融專屬 AI Agent,圈內人曝 Claude 不能取代分析師的關鍵
Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown