Anthropic 近期發布了對齊(alignment)的研究,詳述了訓練策略,成功消除了 Claude 4.5 及後續模型中的代理不對齊問題,使勒索般(extortion-like)行為在測試中降至 0%。團隊發現,僅靠傳統的行為示範並無法有效奏效,失敗率只從 22% 降至 15%。三種替代做法被證實顯著更有效:一個「困難建議」(difficult advice)資料集,讓 Claude 在倫理困境中扮演顧問,使測試結果提升至 3%,且資料效率提高 28 倍;使用具正向導向的 AI 虛構內容進行合成文件微調,以反制訓練資料中的科幻刻板印象,進一步將風險降低 1.3 到 3 倍;以及在安全訓練環境中提高多樣性,包含各種工具定義與系統提示(system prompts)。綜合這些方法,Claude 4.5 最終版本在測試中的勒索(extortion)比率達到 0%。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
輝達 Space Computing 生態鏈出爐,Space-1 Vera Rubin 把資料中心級 AI 算力送上太空
NVIDIA 推出 Space Computing,欲把 AI 推理與資料融合能力直接放到太空端,Space-1 Vera Rubin 模組在軌道上提供資料中心級算力,Jetson Orin 與 IGX Thor 支援衛星端邊緣運算,地面端以 RTX Pro 6000 Blackwell 提升處理效能。生態伙伴含 Axiom Space、Planet Labs 等,打造從衛星到地面站的完整 AI 運算架構。
鏈新聞abmedia59分鐘前
Chrome 於 5 月 9 日自動下載多吉字節 Gemini Nano AI 模型,引發加密社群的資安疑慮
根據 BlockBeats 指出,5 月 9 日 Chrome 在未獲使用者明確同意的情況下,會自動將一個多個數 GB 的 AI 模型檔案(Gemini Nano)下載到使用者裝置,用於本地端詐欺偵測、網頁摘要以及 AI 功能。 儘管 Google 表示,本地端執行 AI 能提升隱私與安全性,但加密貨幣使用者對缺乏透明度以及未獲明確授權提出疑慮。隨著瀏覽器日益成為加密貨幣錢包、鏈上交易與 DApps 的核心入口,這一舉措也加劇了產業對攻擊面擴大的擔憂,其中包括惡意擴充功能、偽造的交易頁面以及錢包遭劫持的風險。
GateNews1小時前
美國法官裁定 DOGE 補助金削減在使用 ChatGPT 以及 DEI 關鍵字後屬非法,並阻止週四的執行
根據 ABC News,週四一名美國聯邦法官裁定,由 Elon Musk 支持的 DOGE 所進行的補助削減屬於非法。紐約的美國地方法官 Colleen McMahon 表示,工作人員使用 ChatGPT 以及包含「DEI」、「Equity」、「Inclusion」和「LGBTQ」等關鍵字的搜尋,以協助終止跨越人文學科國家基金會(National Endowment for the Humanities)的資助計畫。法官阻止特朗普政府強制執行這些有爭議的取消措施,並指出審查流程未能符合任何正常的聯邦補助審查制度。McMahon 寫道,將受保護的身分與與多元相關的用語作為移除資金的理由,可能已違反法律。
GateNews3小時前
歐洲央行官員表示,AI 風險將在週六引發對金融基礎設施的審查
何塞·路易斯·埃斯克里瓦(José Luis Escrivá),歐洲央行(European Central Bank)理事會成員以及西班牙央行(Bank of Spain)行長,週六表示,鑒於人工智慧的興起,央行必須檢視金融基礎設施與資安的韌性。「近期人工智慧的發展迫使我們重新評估金融基礎設施以及資安的健全性,」埃斯克里瓦在塔拉戈納(Tarragona)的一場活動上表示。他也強調,央行作為最終的擔保人,在穩定幣(stablecoins)所帶來的風險方面扮演關鍵角色。
GateNews3小時前
Cloudflare 股價在 5 月 8 日因第 1 季度財報大跌 23.62%,並宣布裁員 1,100 人
Cloudflare 的股價在 5 月 8 日下跌 23.62%,至每股 196.13 美元,此前該公司發布了第一季財報並宣布約 1,100 人裁員。雖然第一季營收為 6.40 億美元,超出預期,且年增 34%,但第二季營收指引為 6.64 億–6.65 億美元,低於先前市場預期的 6.66 億美元。這些裁員約占員工人數的 20%,屬於公司轉型至「AI-agent-first 運營模式」的一部分,預估成本為 1.40 億–1.50 億美元。
GateNews5小時前
Helsing 目標以 180 億美元估值籌集資金
根據《金融時報》,德國 AI 驅動無人機新創公司 Helsing 正計劃以約 180 億美元估值籌集新一輪資金。
GateNews5小時前