Google Research представляет ReasoningBank: ИИ-агенты учатся стратегиям рассуждений на успехах и неудачах

Сообщение Gate News, 22 апреля — Google Research выпустила ReasoningBank, фреймворк агентной памяти, который позволяет агентам, управляемым большими языковыми моделями, непрерывно учиться после развертывания. Фреймворк извлекает универсальные стратегии рассуждений как из успешных, так и из неудачных опытов выполнения задач, сохраняя их в банке памяти для поиска и выполнения при выполнении похожих будущих задач. Соответствующая работа была опубликована в ICLR, а код выложен в открытый доступ на GitHub.

ReasoningBank улучшает два существующих подхода: Synapse, который фиксирует полные траектории действий, но имеет ограниченную переносимость из-за мелкозернистой детализации, и Agent Workflow Memory, который обучается только на успешных случаях. ReasoningBank вносит два ключевых изменения: хранит «паттерны рассуждений» вместо «последовательностей действий», при этом каждая запись памяти содержит структурированные поля для заголовка, описания и содержимого; и включает траектории неудач в обучение. Фреймворк использует модель для самопроверки траекторий выполнения, превращая неудачные опыты в правила против типичных ошибок. Например, правило «нажимай кнопку Load More, когда она видна» развивается в «сначала проверь идентификатор текущей страницы, избегай циклов бесконечной прокрутки, затем нажми load more».

В статье также вводится Memory-aware Test-time Scaling (MaTTS), которое выделяет дополнительные вычисления во время вывода, чтобы исследовать несколько траекторий и сохранять результаты в банке памяти. Параллельное расширение запускает несколько различных траекторий для одной и той же задачи, уточняя более надежные стратегии за счет самосравнения; последовательное расширение итеративно уточняет одну траекторию, сохраняя промежуточные рассуждения в памяти.

В задачах браузера WebArena и задачах по программированию SWE-Bench-Verified с использованием Gemini 2.5 Flash в качестве ReAct-агента ReasoningBank достигла на 8,3% более высокой доли успешных исходов на WebArena и на 4,6% более высокой на SWE-Bench-Verified по сравнению с базовой версией без памяти, сократив среднее число шагов на задачу примерно на 3. Добавление MaTTS с параллельным расширением (k=5) дополнительно улучшило успешность на WebArena на 3 процентных пункта и уменьшило число шагов еще на 0,4.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

WLFI-экосистема AI-проект WorldClaw представила агентную операционную систему: даже без раскрытия бренда все равно можно продать за $10 000?

Семья Трампа вновь запускает криптопроект World Liberty Financial (WLFI) — в партнёрстве с WorldClaw представлен универсальный вход для AI-моделей WorldRouter. Платформа нацелена на объединение агентской экосистемы, включающей 300 AI-моделей: максимальный платный тариф стоит почти 10 000 долларов, но в комплекте вместо чего-то ожидаемого идёт аппаратное устройство с «не раскрытыми брендом и операционной системой», что вызвало сомнения у внешнего сообщества. @WorldClawAI расширяет доступ к AI, а $WLFI играет ключевую роль в экосистеме. Пользователи могут получать доступ к 300+ моделям через WorldRouter, а агенты могут

ChainNewsAbmedia12м назад

Meta разрабатывает ИИ-ассистента Hatch в конкуренции с OpenClaw, планирует завершить внутреннее тестирование до конца июня

Согласно сообщению Financial Times от 5 мая, Meta разрабатывает AI-ассистента Hatch для обычных пользователей, черпая вдохновение из OpenClaw от OpenAI. Цель — завершить внутренние тесты к концу июня; параллельно Meta планирует до четвертого квартала этого года интегрировать автономный агентский инструмент для покупок в свои сервисы Instagram.

MarketWhisper1ч назад

Cloudflare: доля не-человеческого трафика сейчас превысила большинство, x402 Foundation адреса фонда Web Economics

Главный директор по стратегии Cloudflare заявил, что теперь более половины интернет-трафика приходится на не-человеческие источники, подчеркнув сдвиг в моделях использования веба, обусловленный ИИ-агентами. Компания указывает на x402 Foundation как на ключевую инициативу по созданию инфраструктуры для поддержки устойчивой цифровой экономики контента

CryptoFrontier2ч назад

Индийские компании в сфере кибербезопасности используют ИИ, чтобы сократить тестирование уязвимостей до часов

Индийские компании в сфере кибербезопасности, включая Indusface и Astra Security, внедряют ИИ-агентов, построенных на больших языковых моделях, чтобы ускорить тестирование уязвимостей ПО с дней или недель до часов, сообщает The Economic Times. Этот сдвиг отражает растущую скорость действий злоумышленников и появляющуюся способность ИИ-инструментов

CryptoFrontier2ч назад

Подсказка (Hive Intelligence) за 24 часа резко выросла на 60,25%

Gate News, сообщение: 6 мая, согласно данным Gate, по состоянию на момент публикации HINT (Hive Intelligence) торгуется по цене 0,001695 доллара, за последние 24 часа вырос на 60,25%, достигал максимума 0,0019 доллара и опускался до 0,0010577 доллара. Объём торгов за 24 часа составил 10,01 тыс. долларов. Текущая капитализация — около 78,14 тыс. долларов. Hive Intelligence — базовый инфраструктурный уровень для ИИ-агентов, предоставляющий единый прикладной программный интерфейс для данных реального времени по блокчейну. Он устраняет разрозненность данных, позволяя ИИ-агентам без усилий делать запросы и взаимодействовать в сети. Как институциональная инфраструктура крипторынка, Hive Intelligence через MCP-эндпоинты, REST A

GateNews2ч назад

Anthropic представила 10 финансовых AI-агентов, которые легко обрабатывают задачи по финансам, интегрируясь с Microsoft 365

Anthropic представила 10 шаблонов финансовых AI-агентов, которые интегрируют партнерские данные Microsoft 365, Moody’s, D&B и других, и могут использоваться как плагины или с автопланированием. Шаблоны разделены на два типа: исследовательские/клиентские и финансовые операционные, включая инвестиционные исследования, финансовые модели, KYC и т.п., а также с встраиванием рейтингов Moody’s. Claude Opus 4.7 занял первое место в бенчмарке финансовых агентов, показывая, что кадровая ситуация в финсекторе и регуляторная среда будут затронуты.

ChainNewsAbmedia3ч назад
комментарий
0/400
Нет комментариев