Mensagem do Gate News, 23 de abril — A equipa de investigação da Perplexity publicou um artigo técnico que detalha a sua metodologia de pós-treinamento para agentes de pesquisa na web. A abordagem utiliza dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e recorre a um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer obediência a instruções e consistência linguística, seguido de aprendizagem por reforço online (RL) para otimizar a precisão da pesquisa e a eficiência no uso de ferramentas.
A fase de RL utiliza o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de queries iniciais internas que exigem 2–4 hops de raciocínio com verificação por múltiplos solucionadores, e dados conversacionais gerais baseados em rubricas que convertem requisitos de implementação em condições atómicas objetivamente verificáveis para evitar a degradação do comportamento do SFT.
O desenho de recompensas emprega agregação com gating — as pontuações de preferência só contribuem quando a correcção de base é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica são satisfeitos), impedindo que sinais de preferência elevados mascarem erros factuais. As penalizações de eficiência utilizam ancoragem dentro do grupo, aplicando penalizações suaves às chamadas de ferramentas e ao comprimento da geração que excede a base de respostas correctas no mesmo grupo.
A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho de referência em benchmarks de pesquisa. No FRAMES, alcança 57,3% de precisão com uma única chamada de ferramenta, superando o GPT-5.4 em 5,7 pontos percentuais e o Claude Sonnet 4.6 em 4,7 pontos percentuais. Sob um orçamento moderado (quatro chamadas de ferramentas), atinge 73,9% de precisão a $0,02 por consulta, em comparação com 67,8% de precisão do GPT-5.4 a $0,085 por consulta e 62,4% de precisão do Sonnet 4.6 a $0,153 por consulta. Os valores de custo baseiam-se na tarifação pública por API de cada fornecedor e excluem optimizações de caching.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Oobit lança cartões Visa de agentes de IA que suportam compras diretas com USDT
De acordo com a The Block, a Oobit, uma startup de carteiras suportada pela Tether, lançou hoje os “Agent Cards” virtuais que permitem a agentes de IA gastar USDT diretamente em comerciantes compatíveis com a Visa, sem conversão de moeda ou autorização por transação. Cada cartão é atribuído a um único agente e inclui limites de despesa
GateNews3h atrás
AethirClaw Lança CARA, Agente de IA Cripto Pré-configurado e Deployável em 5 Minutos, a 30 de Abril
De acordo com o anúncio oficial da AethirClaw a 30 de abril, a empresa lançou a CARA, um agente de IA cripto pré-configurado, em execução na infraestruturas GPU descentralizada da Aethir. A plataforma oferece mais de 50 competências integradas, cobrindo a monitorização de mercados em tempo real, o rastreio de carteiras de whale, na cadeia
GateNews4h atrás
O agente Hermes da Nous Research adiciona uma funcionalidade de curadoria para auto-reformar competências não utilizadas após 30 dias
De acordo com a Nous Research, a framework Hermes Agent adicionou uma funcionalidade Curator a 29 de abril para gerir automaticamente o ciclo de vida das skills. A funcionalidade resolve uma limitação anterior em que os agentes de IA podiam acumular skills indefinidamente, inchando as mensagens de sistema (system prompts) sem remover as que não eram usadas.
Curator
GateNews5h atrás
Grok lança o modo beta Imagine Agent com Infinite Canvas para fluxos de trabalho criativos multi-etapa
De acordo com relatórios monitorizados pela Beating, a versão web do Grok está a implementar o Imagine Agent Mode (beta), uma nova ferramenta baseada em agentes construída com base nas capacidades existentes de geração de imagens e vídeo da xAI. A interface substitui a janela de chat tradicional por uma tela infinita e inclui quatro predefinições
GateNews7h atrás
A Billsions Network tornou-se no terceiro maior ecossistema de agentes, com 18.000+ agentes implementados
De acordo com a BlockBeats, a Billions Network tornou-se a terceira maior ecossistema de agentes em contagem de implementações em 30 de abril, ultrapassando a Ethereum com mais de 18.000 agentes implementados. A rede ocupa a posição logo após apenas a BNB Chain e a Base. A Billions também sincronizou a sua funcionalidade de identidade de agente verificada em @w
GateNews9h atrás
A Ant International liga 150 milhões de comerciantes via pagamentos inteligentes com IA
Ant International afirmou que a sua rede de pagamentos liga mais de 150 milhões de comerciantes a mais de 2 mil milhões de contas de consumidores em todo o mundo, suportando mais de 300 métodos de pagamento em 220 mercados.
A empresa processa mais de 20 milhões de transacções por dia, em média, e está a expandir-se pela Ásia,
CryptoFrontier12h atrás