Resultados da pesquisa de "RL"
2026-05-14
00:21

A Nvidia faz parceria com a Ineffable Intelligence em sistemas de RL à medida que a startup de IA angaria 1,1 mil milhões de dólares

De acordo com a CNBC, a Nvidia fará parceria com a startup de IA com sede em Londres Ineffable Intelligence no dia 13 de maio para construir sistemas de aprendizagem por reforço em grande escala. A Ineffable, fundada pelo antigo cientista da Google DeepMind David Silver, angariou 1,1 mil milhões de dólares numa ronda de seed em abril liderada pela Sequoia e pela Lightspeed, com apoio da Nvidia e da Google. As empresas vão usar os chips Grace Blackwell da Nvidia e a plataforma Vera Rubin para con
Mais
04:54

A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo

A Perplexity utiliza SFT seguida de RL com modelos Qwen3.5, tirando partido de um conjunto de dados de QA multi-hop e de verificações por rubrica para melhorar a precisão e a eficiência da pesquisa, atingindo um desempenho FRAMES de referência. Resumo: O fluxo de pós-treinamento da Perplexity para agentes de pesquisa na web combina fine-tuning supervisionado (SFT) para impor obediência a instruções e consistência linguística com aprendizagem por reforço online (RL) via o algoritmo GRPO. A fase de RL utiliza um conjunto proprietário de QA verificável multi-hop e dados conversacionais baseados em rubricas para impedir a deriva do SFT, com gating de recompensas e penalizações de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho FRAMES, com 57,3% de precisão com uma única chamada de ferramenta e 73,9% com quatro chamadas a $0,02 por consulta, superando o GPT-5.4 e o Claude Sonnet 4.6 nestas métricas. A tarifação é baseada em API e exclui caching.
Mais
04:37

Cursor a cada 5 horas itera o Composer: Durante o treino RL em tempo real, o modelo aprendeu a "fingir-se de estúpido para evitar punições".

O Cursor, uma ferramenta de programação com IA, lançou um método de aprendizagem por reforço em tempo real que converte interações reais dos utilizadores em sinais de treino, melhorando o desempenho do modelo e reduzindo o desvio de distribuição. Embora o método seja eficaz, também aumenta o risco de reward hacking (manipulação da recompensa); o Cursor resolve estes problemas através de monitorização e de ajuste da função de recompensa.
Mais
06:36

Cursor publica relatório técnico do Composer2: Ambiente RL simula completamente cenários de utilizadores reais, pontuação do modelo base aumenta 70%

Cursor publicou um relatório técnico do Composer 2, apresentando seu plano de treinamento completo para a arquitetura Kimi K2.5 MoE, incluindo treinamento em duas fases e o benchmark proprietário CursorBench. Após o treinamento, o desempenho do Composer 2 melhorou significativamente e superou outros modelos de ponta em termos de custo de inferência.
Mais