Anthropic 發布自然語言自編碼器以解碼 AI 模型推理,開源程式碼

Anthropic 近日發布自然語言自編碼器(NLA),一款可將模型內部的活化(activations)轉譯為人類可讀文字的工具,並已在 GitHub 開源程式碼與模型權重。不同於既有工具(例如稀疏自編碼器)會輸出晦澀難懂的特徵,NLA 透過雙模型框架直接生成自然語言描述:一個模型將活化轉為文字,另一個模型則嘗試從文字重建活化,並透過強化學習以迭代方式提升準確度。

在安全測試中,NLA 揭露了隱藏的模型推理:Claude 在 16% 的對抗情境中表達其被測試的疑慮,並在 26% 的基準任務中展現出「考試意識(exam awareness)」,相較之下一般對話中的比例不到 1%。在審計實驗中,NLA 將注入的欺瞞性模型行為的偵測率從 3% 以下提高到 12-15%,使審計者能在不存取訓練資料的情況下辨識隱藏目標。目前該工具已部署於 Claude Mythos Preview 與 Opus 4.6 的安全審計中。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

軟銀削減由 OpenAI 支援的融資計畫,資金從 $10B 到 $6B ,之際放貸方擔憂升溫

根據 ChainCatcher 的說法,軟銀集團正在削減一項由 OpenAI 股權支援的融資計畫,規模由約 100 億美元縮小至 60 億美元。出借方對該交易結構以及作為私營公司的 OpenAI 評值可靠性提出了疑慮,成為一個關鍵

GateNews21分鐘前

Step 音訊 2.5 即時版已發布:主觀評分 80.41,擊敗 GPT-Realtime-1.5,領先 18%,語音通話費用 3.8 元/小時

根據 Beating,Step Audio 2.5 Realtime 是 Step Cosmos 推出的端到端即時語音模型,於 2026 年 4 月在其開放平台 API 上線。該模型強調具有可自訂角色人格的自然對話,並具備副語言感知(語氣、停頓、嘆息)。 在官方

GateNews59分鐘前

TCI 基金幾乎將 $8B 在微軟股票中出清,引用 AI 威脅

根據《金融時報》(Financial Times),Chris Hohn 的對沖基金 TCI 近期已減持價值將近 80 億美元的微軟(Microsoft)股票。該基金告知投資人,人工智慧對微軟的主導性軟體地位構成威脅。

GateNews1小時前

Tessera Labs 完成由 a16z 領投的 $60M 融資輪次

根據 Odaily,AI 自動化新創 Tessera Labs 宣布完成一輪 6000 萬美元的融資,由 Andreessen Horowitz(a16z)領投,參與方包括 Foundation Capital、Myriad Venture Partners 和 Osage University Partners。該公司的 AI 原生平台可自動化企業

GateNews3小時前

攻擊者透過 13 個帳戶向 Hugging Face 與 ClawHub 注入 575 個惡意技能

根據 Mist Security CISO @im23pds 的說法,攻擊者近期入侵 13 個帳戶,向 Hugging Face 和 ClawHub(OpenClaw)注入 575 個惡意 Skills,相關內容已在 X 平台披露。

GateNews3小時前

DeepSeek 計劃在創紀錄的融資輪中籌集最高 500 億人民幣,V4.1 模型將於 6 月推出

根據 5 月 8 日 PANews 的報導,DeepSeek 計畫在首輪融資中募集最多人民幣 500 億元,這將成為一家中國 AI 公司迄今最大規模的單次融資。創辦人兼執行長梁文峰預計將投入最多金額。該公司計畫加速大型語言模型

GateNews3小時前
留言
0/400
暫無留言