A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

Noticiário da Gate, 23 de abril — A equipe de pesquisa da Perplexity publicou um artigo técnico detalhando sua metodologia de pós-treinamento para agentes de busca na web. A abordagem usa dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e emprega um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer aderência a instruções e consistência de linguagem, seguido de aprendizado por reforço online (RL) para otimizar a acurácia da busca e a eficiência do uso de ferramentas.

A fase de RL aproveita o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de consultas iniciais internas que exigem 2–4 saltos de raciocínio com verificação por múltiplos resolvedores, e dados gerais de conversação baseados em rubricas que convertem requisitos de implantação em condições atômicas objetivamente verificáveis para evitar degradação do comportamento do SFT.

O desenho de recompensa emprega agregação filtrada — as pontuações de preferência só contribuem quando a correção do baseline é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica forem atendidos), impedindo que sinais de alta preferência mascarem erros factuais. As penalidades de eficiência usam ancoragem dentro do grupo, aplicando penalidades suaves às chamadas de ferramenta e ao comprimento de geração que excede o baseline de respostas corretas no mesmo grupo.

A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança desempenho de nível superior em benchmarks de busca. Em FRAMES, atinge 57,3% de acurácia com uma única chamada de ferramenta, superando GPT-5.4 em 5,7 pontos percentuais e Claude Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (quatro chamadas de ferramentas), obtém 73,9% de acurácia a US$ 0,02 por consulta, em comparação com 67,8% de acurácia do GPT-5.4 a US$ 0,085 por consulta e 62,4% de acurácia do Sonnet 4.6 a US$ 0,153 por consulta. Os valores de custo são baseados na precificação pública de API de cada provedor e excluem otimizações de caching.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Agente de IA Manfred forma empresa, recebe carteira cripto antes do lançamento das negociações no fim de maio

O agente de IA Manfred formou sua própria empresa e obteve uma carteira de criptomoedas junto com credenciais para contratar funcionários, fazer pagamentos e conduzir negócios. O agente não está programado para começar a operar cripto até o final de

GateNews16m atrás

MoonPay lança o cartão MoonAgents, um cartão de débito de stablecoin para agentes de IA na Mastercard

A MoonPay anunciou na sexta-feira o lançamento do MoonAgents Card, um cartão de débito virtual Mastercard que converte stablecoins em moeda fiduciária no momento do pagamento tanto para agentes de IA quanto para usuários. O cartão, emitido por meio da Monavate (uma plataforma global de pagamentos regulamentada e membro principal da Mastercard), vincula

GateNews18m atrás

Agente de IA Manfred forma empresa, recebe uma carteira cripto antes do lançamento das negociações em maio

O agente de IA Manfred formou a sua própria empresa e obteve uma carteira de cripto e credenciais comerciais, embora não vá começar a operar criptomoedas até o fim de maio. Agora, o agente está preparado para contratar funcionários, fazer pagamentos e realizar negócios

GateNews6h atrás

MoonPay lança o MoonAgents Card, cartão Mastercard virtual para agentes de IA e usuários, nesta sexta-feira

De acordo com a The Block, a MoonPay lançou a MoonAgents Card, um cartão de débito virtual Mastercard para agentes de IA e usuários, na sexta-feira. O cartão converte stablecoins em moeda fiduciária no momento do pagamento e pode ser usado em qualquer comerciante online global que aceite Mastercard. Emitido por meio da Monavate, uma instituição de pagamento regulamentada

GateNews9h atrás

MoonPay lança o cartão MoonAgents na rede Mastercard na sexta-feira

De acordo com The Block, a MoonPay lançou a MoonAgents Card na sexta-feira — um cartão de débito Mastercard virtual que permite que agentes de IA e usuários gastem stablecoins diretamente a partir de carteiras onchain. O cartão é emitido pela Monavate, uma plataforma global de pagamentos regulamentada e membro principal da Mastercard, em

GateNews12h atrás

137 Ventures encerra $700M em novos fundos, AUM atinge US$ 15 bilhões

De acordo com a ChainCatcher, a 137 Ventures, investidora inicial na SpaceX, concluiu recentemente a captação de recursos para dois novos fundos, somando mais de US$ 700 milhões, elevando seus ativos sob gestão para mais de US$ 15 bilhões. O novo capital vai apoiar investimentos em agentes de IA, robótica e propulsão espacial

GateNews13h atrás
Comentário
0/400
Sem comentários