Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

推送新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍其用于网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段采用 GRPO 算法,并使用两种数据来源:其自有的多跳可验证问答数据集——由内部种子查询构建,要求进行 2–4 跳的推理,并通过多求解器验证;以及基于评分标准的通用对话数据——将部署需求转化为客观可检查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准条件均满足)),偏好分数才会生效,从而避免高偏好信号掩盖事实错误。效率惩罚采用组内锚定:对工具调用以及生成长度中超过同组正确答案基线的部分施加平滑惩罚。

评估显示,Qwen3.5-397B-SFT-RL 在各类搜索基准上实现同类最佳表现。在 FRAMES 上,单次工具调用的准确率为 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Claude Sonnet 4.6 高 4.7 个百分点。在适度预算 (四次工具调用) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方的公开 API 定价,并不包含缓存优化。

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

CEO Google Sundar Pichai mengungkapkan bahwa dengan AI Gemini, ia dapat memahami sisi manusia untuk membangun komunikasi yang lebih tulus

Pichai mengatakan bahwa sebelum rapat-rapat penting, ia menggunakan sudut pandang Gemini untuk menganalisis dan memprediksi psikologi lawan, sehingga dapat meningkatkan empati dan komunikasi yang lebih tulus. Agen AI juga dapat secara otomatis merangkum email, menyusun jadwal, dan membuat ringkasan agar urusan harian menjadi lebih efisien. Selain itu, platform AI berbasis open co-creation tengah berkembang; teknologi sumber terbuka seperti Gemini 4 menurunkan hambatan masuk. Ia juga menekankan perlunya membangun kerangka tata kelola AI, dengan keterlibatan pihak pemerintahan dan masyarakat untuk mengatasi tantangan seperti keamanan siber, deepfake, dan keberlanjutan.

ChainNewsAbmedia6menit yang lalu

Oobit Meluncurkan Kartu Agen AI Berbasis Visa pada Kamis, Memungkinkan Pengeluaran USDT Tanpa Konversi ke Fiat

Menurut The Block, startup dompet yang didukung Tether, Oobit, meluncurkan AI Agent Cards pada Kamis, memungkinkan bot otonom melakukan pembelian menggunakan saldo USDT tanpa mengonversinya ke fiat atau mengakses kredensial kartu perusahaan secara langsung. Kartu yang didukung Visa dapat digunakan secara online di mana pun Visa dapat diakses

GateNews33menit yang lalu

ChimpX AI Menggalang 2,8 Juta Dolar AS dalam Putaran Seed yang Dipimpin Waterdrip Capital dan MetaLabs Ventures

ChimpX AI mengumumkan hari ini penutupan putaran seed senilai 2,8 juta dolar untuk mempercepat pengembangan Mojo AI, sebuah execution agent yang mengubah niat berbahasa Inggris biasa menjadi transaksi DeFi on-chain di Solana. Putaran ini dipimpin oleh Waterdrip

GateNews2jam yang lalu

CEX Utama Meluncurkan Protokol Pembayaran Agen pada 29 April, Memungkinkan Transaksi Lintas Rantai yang Didorong AI

Menurut pengumuman terbaru, salah satu bursa kripto terkemuka meluncurkan Agent Payments Protocol pada 29 April, standar terbuka yang memungkinkan agen kecerdasan buatan menjalankan transaksi bisnis penuh di berbagai jaringan blockchain tanpa campur tangan manusia. Protokol

GateNews2jam yang lalu

Walrus Meluncurkan MemWal SDK untuk Memori AI Agent

Walrus meluncurkan MemWal, sebuah SDK yang dirancang untuk mengatasi keterbatasan pada memori agentic dengan menghadirkan verifiabilitas, ketersediaan, portabilitas, dan kemampuan dibagikan dalam cara AI agent menyimpan dan mengakses informasi, menurut Product Manager Mysten Labs Group Abinhav Garg. Memori yang Dapat Diverifikasi dan Portabel

CryptoFrontier3jam yang lalu

Oobit Meluncurkan Kartu Visa Agen AI yang Mendukung Pengeluaran Langsung USDT

Menurut The Block, Oobit, sebuah startup dompet yang didukung Tether, meluncurkan virtual “Agent Cards” hari ini yang memungkinkan agen AI membelanjakan USDT langsung di merchant yang didukung Visa tanpa konversi mata uang atau persetujuan per transaksi. Setiap kartu ditetapkan untuk satu agen dan mencakup batasan pengeluaran

GateNews6jam yang lalu
Komentar
0/400
Tidak ada komentar