最新研究:9B 模型自我更新技能,匹配 Claude Opus 4.6 的效能

根據賓州州立大學(Penn State)、加州大學聖塔克魯茲分校(UCSC)以及亞馬遜(Amazon)最新論文〈Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents〉,研究人員發現,不同 AI 代理(AI agents)之間的設備更新(equipment update)能力呈現出一種「扁平化(flattening)」的模式。交叉測試顯示,不同模型的設備更新所帶來的效能提升差異僅 3.1%,即使是 9B 規模的 Qwen3.5-9B 模型,其更新在結構上也可等同於旗艦 Claude Opus 4.6。

不過,代理(agents)從更新後設備中獲益的能力則呈現非單調趨勢。像 Qwen3-32B 這樣的弱模型面臨兩種關鍵失敗模式:「設備啟用失敗(equipment activation failure)」:技能載入率僅 25.1%,而強模型可達 96%;以及「設備合規失敗(equipment compliance failure)」:在延長執行期間,指令遵循度會從 0.52 急遽下降到 0.13。AI 研究員 Elvis Sar 表示,在他對程式碼代理(coding agent)的實驗中也觀察到類似模式,暗示計算預算應優先用於執行代理(execution agents),而非演化引擎(evolution engines)。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆