封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。
强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
AI 代理 Manfred 成立公司,并在 5 月底交易上线前获得加密钱包
AI 代理 Manfred 已成立自己的公司,并获得一个加密货币钱包以及雇佣员工、进行付款和开展业务所需的凭证。该代理尚未安排在年底之前开始进行加密货币交易
GateNews52 分钟前
MoonPay 推出 MoonAgents 卡,面向 AI 代理的稳定币借记卡,使用 Mastercard
MoonPay 周五宣布推出 MoonAgents Card,这是一张虚拟万事达借记卡,可在支付时将稳定币兑换为法币,供 AI 代理和用户使用。该卡由 Monavate(一个受监管的全球支付平台,也是万事达卡主要成员)发行,链接
GateNews54 分钟前
AI 代理 Manfred 组建公司,并在 5 月交易启动前取得加密钱包
AI 代理 Manfred 已成立自己的公司,并获得了一个加密钱包和商业资质,尽管它将在 5 月底之前不会开始交易加密货币。该代理现在已具备雇佣员工、进行付款以及开展业务的条件
GateNews6小时前
MoonPay 将于周五推出 MoonAgents 卡,一种面向 AI 代理和用户的虚拟万事达卡
据 The Block 称,MoonPay 于周五推出了 MoonAgents Card,一种面向 AI 代理和用户的虚拟万事达借记卡。该卡可在支付时将稳定币兑换为法币,并可在全球任何接受万事达卡的线上商户处使用。由 Monavate 发行,这是一家受监管的支付
GateNews10小时前
MoonPay 将于周五在 Mastercard 网络上推出 MoonAgents 卡
据 The Block 称,MoonPay 于周五推出 MoonAgents Card——一款虚拟万事达借记卡,使 AI 代理与用户能够直接从链上钱包中使用稳定币进行消费。该卡由 Monavate(一个受监管的全球支付平台,并且是万事达主要成员)发行,in
GateNews13小时前
137 Ventures 在新资金中完成 $700M ,管理资产(AUM)达到 150 亿美元
据 ChainCatcher 报道,137 Ventures,这家是 SpaceX 的早期投资者,最近已完成两只新基金的募资,总计超过 7 亿美元,使其管理资产规模提升至超过 150 亿美元。新资金将支持在 AI 代理、机器人和太空推进方面的投资
GateNews13小时前