Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

发布新闻消息,4 月 23 日——Perplexity 的研究团队发表了一篇技术文章,详细介绍其面向网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,这些查询需要 2–4 跳推理,并通过多解算器验证;以及基于评分细则的通用对话数据,它将部署需求转换为客观可核查的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入,即 (question-answer match 或所有评分细则条件都满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 的成本实现 73.9% 的准确率;相比之下,GPT-5.4 在每次查询 $0.085 下准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 下准确率为 62.4%。成本数据基于各提供方的公开 API 定价,并排除缓存优化。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

أطلقت OpenClaw الإصدار v2026.4.29 في 29 أبريل، مع ترقية الذاكرة إلى ويكي مخصص يتضمن تتبع العلاقات

وبحسب Beating، أطلقت المساعدة الذكية مفتوحة المصدر OpenClaw (على GitHub 367 ألف نجمة) النسخة v2026.4.29 في 29 أبريل، لتُعد بذلك تحديثها الثاني خلال يومين. تطور نظام الذاكرة من استرجاع بسيط إلى ويكي شخصي، ما يتيح للكيانات بناء ملفات تعريف للشخصيات تلقائياً وتتبع r

GateNewsمنذ 8 س

كشف الرئيس التنفيذي لشركة Google، بيشاي، عن استخدام Gemini AI لفهم طبيعة الإنسان من أجل بناء تواصل أكثر صدقاً

بيتشاي يوضح أنه قبل اجتماعات مهمة، يقوم بتحليل آراء الطرف الآخر باستخدام منظور Gemini للتنبؤ بما قد يشعر به، وذلك لتعزيز التعاطف وتحقيق تواصل أكثر صدقاً. كما يمكن لوكلاء الذكاء الاصطناعي ترتيب رسائل البريد الإلكتروني تلقائياً وجدولة المهام وإعداد الملخصات، بما يجعل شؤون الحياة اليومية أكثر كفاءة. وفي الوقت نفسه، تتزايد شعبية منصات ذكاء اصطناعي مبنية على مبدأ المشاركة المفتوحة في الإبداع؛ إذ إن تقنيات مفتوحة المصدر مثل Gemini 4 تخفض عتبة الدخول. كما شدد على ضرورة وضع أطر حوكمة للذكاء الاصطناعي، مع مشاركة الأوساط السياسية والمجتمع لمعالجة تحديات مثل أمن السيبراني والتزييف العميق والاستدامة.

ChainNewsAbmediaمنذ 11 س

يطلق Oobit بطاقات وكلاء ذكاء اصطناعي مدعومة من Visa يوم الخميس، ما يتيح إنفاق USDT دون تحويل إلى عملة ورقية

وفقاً لصحيفة The Block، أطلقت شركة Oobit الناشئة لدعم محافظ مرتبطة بـ Tether، بطاقات وكلاء مدعومة بالذكاء الاصطناعي يوم الخميس، ما يتيح لروبوتات مستقلة إجراء عمليات شراء باستخدام أرصدة USDT دون تحويلها إلى عملة ورقية أو الوصول مباشرةً إلى بيانات اعتماد بطاقات الشركات. وتُستخدم بطاقات مدعومة من Visa عبر الإنترنت في أي مكان تتوفر فيه شبكة Visa، حيث يمكن الوصول إليها.

GateNewsمنذ 11 س

شركة ChimpX AI تجمع 2.8 مليون دولار في جولة تمويل بذري بقيادة Waterdrip Capital وMetaLabs Ventures

أعلنت ChimpX AI اليوم إغلاق جولة تمويل بذري بقيمة 2.8 مليون دولار لتسريع تطوير Mojo AI، وكيل تنفيذ يحوّل النوايا المكتوبة بالإنجليزية البسيطة إلى معاملات DeFi على السلسلة عبر Solana. قادت الجولة شركة Waterdrip

GateNewsمنذ 13 س

منصة تداول مركزية كبرى تطلق بروتوكول مدفوعات الوكلاء في 29 أبريل، ما يتيح معاملات عبر السلاسل مدعومة بالذكاء الاصطناعي

وبحسب إعلان حديث، كشفت إحدى أبرز منصات تداول العملات الرقمية عن بروتوكول Agent Payments في 29 أبريل، وهو معيار مفتوح يمكّن وكلاء الذكاء الاصطناعي من تنفيذ المعاملات التجارية الكاملة عبر شبكات متعددة من البلوك تشين دون تدخل بشري. البروتوكول

GateNewsمنذ 13 س

تطلق Walrus مجموعة أدوات MemWal لذكريات وكلاء الذكاء الاصطناعي

أطلقت شركة Walrus MemWal، وهي مجموعة أدوات (SDK) صُممت لمعالجة أوجه القصور في الذاكرة الوكيلة (agentic memory)، عبر إتاحة التحقق والتوفر وقابلية النقل وقابلية المشاركة في كيفية تخزين وكلاء الذكاء الاصطناعي للمعلومات والوصول إليها، بحسب مدير المنتجات في Mysten Labs Group، أبيناف جارج. الذاكرة القابلة للتحقق وقابلة للنقل

CryptoFrontierمنذ 14 س
تعليق
0/400
لا توجد تعليقات