拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。
强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
OpenClaw выпускает v2026.4.29 29 апреля, обновляет память до персонализированной Wiki с отслеживанием связей
Beating: open-source AI-ассистент OpenClaw (GitHub, 367 тыс. звёзд) выпустил v2026.4.29 29 апреля, отметив второе обновление за два дня. Система памяти эволюционировала от простого ретривал-отзыва к персонализированной wiki, позволяя агентам автоматически создавать профили персонажей и отслеживать r
GateNews17м назад
Генеральный директор Google Пичаи раскрыл, что Gemini AI используется для понимания человеческой натуры и создания более искреннего общения
Пичай заявил, что перед важными встречами он анализирует и прогнозирует мысли собеседника, используя подход Gemini, чтобы развивать эмпатию и вести более искренний диалог. Также ИИ-агенты могут автоматически упорядочивать письма, планировать задачи и готовить краткие сводки, делая повседневные рутинные дела более эффективными. Кроме того, набирают популярность AI-платформы, основанные на открытом совместном творчестве: такие как Gemini 4, открытые технологии снижают порог входа; при этом подчеркивается необходимость выстроить рамки AI-гovernance, а представители власти и общество должны участвовать в их формировании, чтобы решать вызовы в сфере кибербезопасности, дипфейков и устойчивого развития.
ChainNewsAbmedia3ч назад
Oobit в четверг запустит AI-карты агентов с поддержкой Visa, позволяя тратить USDT без конвертации в фиат
По данным The Block, стартап кошельков, поддерживаемых Tether, Oobit в четверг запустил AI Agent Cards, позволяющие автономным ботам совершать покупки, используя балансы USDT, без конвертации в фиат или прямого доступа к корпоративным данным карт. Карты, поддерживаемые Visa, можно использовать онлайн везде, где Visa доступна
GateNews3ч назад
ChimpX AI привлекла $2,8 млн в раунде Seed во главе с Waterdrip Capital и MetaLabs Ventures
ChimpX AI объявила сегодня о завершении посевного раунда на 2,8 миллиона долларов для ускорения разработки Mojo AI — агента исполнения, который преобразует намерения на обычном английском в on-chain DeFi-транзакции в сети Solana. Раунд возглавила Waterdrip
GateNews5ч назад
Крупная CEX запускает протокол агентских платежей 29 апреля, обеспечивая транзакции между цепочками с поддержкой ИИ
Согласно недавнему объявлению, ведущая криптовалютная биржа представила протокол Agent Payments Protocol 29 апреля — открытый стандарт, позволяющий агентам искусственного интеллекта выполнять полноценные бизнес-транзакции на нескольких блокчейн-сетях без участия человека. Протокол
GateNews5ч назад
Walrus запускает MemWal SDK для памяти AI-агента
Walrus запустила MemWal — SDK, предназначенный для устранения ограничений агентной памяти за счёт предоставления верифицируемости, доступности, переносимости и возможности совместного использования того, как AI-агенты хранят и получают информацию, согласно Product Manager группы Mysten Labs Abinhav Garg.
Верифицируемая и переносимая память
CryptoFrontier6ч назад