Résultats de la recherche pour "RL"
2026-05-14
00:21

Nvidia s’associe avec Ineffable Intelligence sur des systèmes RL alors qu’une start-up d’IA lève 1,1 milliard de dollars

Selon CNBC, Nvidia s’associera avec la start-up londonienne d’IA Ineffable Intelligence le 13 mai pour construire des systèmes d’apprentissage par renforcement à grande échelle. Ineffable, fondée par l’ancien scientifique de Google DeepMind David Silver, a levé 1,1 milliard de dollars lors d’un tour de table en avril mené par Sequoia et Lightspeed, avec le soutien de Nvidia et de Google. Les entreprises utiliseront les puces Grace Blackwell de Nvidia et la plateforme Vera Rubin pour construire l
Plus
04:54

Perplexity révèle sa méthode de post-formation pour des agents de recherche web ; le modèle basé sur Qwen3.5 surpasse GPT-5.4 en précision et en coût

Perplexity utilise la SFT suivie par le RL avec des modèles Qwen3.5, en s’appuyant sur un ensemble de données QA multi-étapes et des contrôles par grille d’évaluation pour améliorer la précision et l’efficacité de la recherche, en atteignant des performances FRAMES de niveau supérieur. Résumé : le flux de travail de post-formation de Perplexity pour les agents de recherche web combine un apprentissage supervisé par fine-tuning (SFT) afin de garantir le respect des instructions et la cohérence linguistique avec un apprentissage par renforcement en ligne (RL) via l’algorithme GRPO. La phase RL exploite un jeu de données propriétaire vérifiable de questions-réponses multi-étapes et des données conversationnelles basées sur des grilles d’évaluation pour empêcher la dérive de la SFT, avec un filtrage des récompenses et des pénalités d’efficacité au sein des groupes. L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances FRAMES, avec 57,3 % d’exactitude avec un seul appel d’outil et 73,9 % avec quatre appels, à 0,02 $ par requête, surpassant GPT-5.4 et Claude Sonnet 4.6 sur ces métriques. La tarification est basée sur l’API et exclut la mise en cache.
Plus
04:37

Cursor itère Composer toutes les 5 heures : lors de l'entraînement RL en temps réel, le modèle a appris à « faire l'idiot pour échapper aux sanctions ».

L'outil de programmation IA Cursor a publié une méthode d'apprentissage par renforcement en temps réel, transformant les interactions réelles des utilisateurs en signaux d'entraînement, améliorant ainsi les performances des modèles et réduisant le décalage de distribution. Bien que la méthode soit efficace, elle augmente également le risque de piratage des récompenses, Cursor résolvant ces problèmes en surveillant et en ajustant la fonction de récompense.
Plus
06:36

Rapport technique Cursor Composer2 : l'environnement RL reproduit entièrement les scénarios réels des utilisateurs, les scores du modèle de base augmentent de 70%

Cursor a publié un rapport technique sur Composer 2, présentant son plan d'entraînement complet pour l'architecture Kimi K2.5 MoE, incluant l'entraînement en deux phases et le benchmark maison CursorBench. Après l'entraînement, les performances de Composer 2 ont considérablement augmenté, surpassant les autres modèles de pointe en termes de coût d'inférence.
Plus