Google Research 發布 ReasoningBank:AI 代理從成功與失敗中學習推理策略

Gate 新聞訊息,4 月 22 日 — Google Research 發布 ReasoningBank:一種代理記憶框架,可讓由大型語言模型驅動的代理在部署後持續學習。該框架從成功與失敗的任務經驗中提取通用推理策略,並將其存入記憶庫,以便在未來相似任務中進行檢索與執行。相關論文已發表於 ICLR,程式碼也已在 GitHub 上開源。

ReasoningBank 優於兩種既有方法:Synapse 會記錄完整的動作軌跡,但由於粒度較細,因而可遷移性有限;Agent Workflow Memory 只會從成功案例中學習。ReasoningBank 做出兩項關鍵改變:改為存放「推理模式」,而非「動作序列」——每個記憶都包含用於標題、描述與內容的結構化欄位;並將失敗軌跡納入學習。該框架使用模型對執行軌跡進行自我評估,將失敗經驗轉化為防陷阱規則。例如,規則「看到就點擊『載入更多』按鈕」會演變為「先驗證目前頁面識別符,避免無限捲動迴圈,然後再點擊載入更多」。

該論文也提出了具備記憶感知的測試階段縮放 (MaTTS),它會在推論期間配置額外算力,以探索多條軌跡並將發現存入記憶庫。並行擴展會為同一任務生成多條不同的軌跡,透過自我比較來強化更穩健的策略;序列擴展則以迭代方式精煉單一軌跡,並將中間推理存入記憶。

在使用 Gemini 2.5 Flash 作為 ReAct 代理的 WebArena 瀏覽任務與 SWE-Bench-Verified 編碼任務中,ReasoningBank 相較於不使用記憶的基準,WebArena 的成功率提升 8.3%,SWE-Bench-Verified 的成功率提升 4.6%,且每個任務的平均步數降低約 3。將 MaTTS 搭配並行擴展 (k=5) 進一步使 WebArena 的成功率提升 3 個百分點,並使步數再降低 0.4。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Anthropic 推 Claude Dreams:Agent 在工作之間自整理記憶、消除重複與矛盾

Anthropic 在 Code with Claude 大會公布 Dreams,讓 Claude Managed Agents 在多場會話間自動整理記憶、消除重複與矛盾、更新陳舊條目,輸出可審核的整理後記憶庫;輸入上限為 100 個 session 與 4,096 字元,非同步執行,數分鐘至數十分鐘完成,支援串流觀察。研究預覽需申請,暫只支援 claude-opus-4-7 與 claude-sonnet-4-6,正式上市未定。

鏈新聞abmedia1小時前

Cloudflare 攜手 Stripe 推 Agent 自主協議:AI 可自建帳戶、買網域、部署應用

Cloudflare 與 Stripe 4 月 30 日共同推出新協議、讓 AI Agent 可在無人工介入下自行建立 Cloudflare 帳戶、訂閱付費方案、註冊網域、取得 API token、並直接部署應用程式。Cloudflare 官方部落格說明、整套流程從頭到尾不需要人類進入後台、複製貼上 token、或輸入信用卡資料;用戶只需先給予許可、並接受 Cloudflare 的使用條款。本週此公告在 Hacker News 取得 548 分、成為 AI Agent 自主執行任務的標誌性基礎建設新聞之一。 三層協議架構:服務發現、身分授權、付款代幣化 Cloudflare-Stripe

鏈新聞abmedia1小時前

Coinbase 工程師:AI 代理可能會顛覆網路廣告模式

Coinbase 工程師 Erik Reppel 表示,人工智慧代理(AI agents)可能從根本上削弱仰賴網路廣告的商業模式。根據 Reppel 的說法,網路經濟高度仰賴由人類使用者產生的廣告收入,但 AI 代理會繞過這套系統

Crypto Frontier2小時前

Prophet 今日推出以 AI 驅動的預測市場,並啟用 10,000 美元的即時交易分批

根據 MetaversePost,Prophet 於今日(5 月 6 日)推出一個由 AI 驅動的預測市場,配置 10,000 美元的 USDC 用於進行現場交易。使用者可以直接與由 AI 作為對手方的交易進行交易,該對手方會為每個市場產生基於機率的定價;部分合約可在 24 小時內結算

GateNews8小時前

Tessera Labs 關閉 A 輪募資,由 a16z 領投;六人 AI 團隊取代 60 名 SAP 顧問

根據 Beating,Tessera Labs(一家 AI 系統整合公司)完成了由 a16z 領投的 A 輪融資。這家創業公司成立於 2024 年,使用多代理平台來自動化 SAP ECC 到 S/4HANA 的遷移,傳統上這需要 3-5 年以及 1 億美元到 5 億美元每

GateNews8小時前

台指站穩四萬點、美股創新高,但 AI 產業才剛進入早期階段?

Goldman Sachs 指出,AI 需求將因消費型 agent 工作負載大幅提升 token 消費,2030 年增長或超過 12 倍,月 token 運算可達 60 兆;非 agent 與 consumer agent 差在長時自動化任務,若成真 AI 將進入 agentic 工作流程。Larry Fink 表示算力供給嚴重短缺,未來或出現算力期貨,兩者共同支撐 AI 基礎建設的多頭論;文章認為 AI 仍處於早期階段。

鏈新聞abmedia9小時前
留言
0/400
暫無留言