D’après Beating, Microsoft a récemment open-sourcé la famille de modèles Phi-Ground, conçue pour résoudre le problème de l’endroit où l’IA doit cliquer sur un écran d’ordinateur. La version à 4 milliards de paramètres, associée à de grands modèles de langage pour la planification des instructions, a dépassé la précision de clic d’OpenAI Operator et de Claude Computer Use lors du benchmark Showdown et s’est classée première parmi tous les modèles de moins de 100 milliards de paramètres sur cinq évaluations, dont ScreenSpot-Pro.

L’équipe a entraîné le modèle sur plus de 40 millions d’exemples de données et a constaté que trois techniques d’entraînement courantes utilisées dans des articles académiques devenaient inefficaces à grande échelle. L’approche clé s’est révélée simple : produire des coordonnées sous forme de nombres ordinaires, tels que « 523, 417 ». Des recherches précédentes avaient inventé des vocabulaires de positions spécialisés pour les coordonnées, mais ils n’ont pas tenu à l’échelle. L’équipe a aussi découvert que placer des instructions textuelles avant les images améliorait les performances, car les modèles pouvaient identifier les cibles tout en traitant les pixels. De plus, des méthodes d’apprentissage par renforcement comme le DPO ont amélioré la précision même après le fine-tuning.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

05-09 11:17

L’IA co-mathématicienne de Google DeepMind atteint 47,9 % sur FrontierMath, catégorie 4, dépasse GPT-5,5 Pro, et résout 3 problèmes précédemment impossibles

05-09 09:54

Le système de récompense d'OpenAI évalue par inadvertance des chaînes de raisonnement sur 6 modèles, dont GPT-5.4

05-09 09:21

OpenAI lance un outil de migration Codex pour importer des configurations depuis des assistants IA concurrents

05-09 05:53

China Mobile lance une plateforme de modèles d’IA avec plus de 300 intégrations, réduit les coûts en tokens de 30%

05-09 04:01

Ant Bailing lance un modèle d’IA Ring-2.6-1T avec 87,6 de score PinchBench

Analyse approfondie

Nvidia ouvre un partenariat de long terme en matière d’IA avec Deepinfra, qui obtient un financement de série B de 107 millions de dollars afin de créer une « usine de jetons »

ChainNewsAbmedia05-10 00:04

Les GPT-5.5-Cyber d’OpenAI pour armer les défenseurs de la cybersécurité

Cryptonews05-08 18:42

OpenAI lance GPT-Realtime-2 : intègre l’inférence de GPT-5 dans les agents vocaux et fait passer le contexte à 128K

ChainNewsAbmedia05-08 04:04

Commentaire

0/400

Aucun commentaire