D’après Beating, Microsoft a récemment open-sourcé la famille de modèles Phi-Ground, conçue pour résoudre le problème de l’endroit où l’IA doit cliquer sur un écran d’ordinateur. La version à 4 milliards de paramètres, associée à de grands modèles de langage pour la planification des instructions, a dépassé la précision de clic d’OpenAI Operator et de Claude Computer Use lors du benchmark Showdown et s’est classée première parmi tous les modèles de moins de 100 milliards de paramètres sur cinq évaluations, dont ScreenSpot-Pro.
L’équipe a entraîné le modèle sur plus de 40 millions d’exemples de données et a constaté que trois techniques d’entraînement courantes utilisées dans des articles académiques devenaient inefficaces à grande échelle. L’approche clé s’est révélée simple : produire des coordonnées sous forme de nombres ordinaires, tels que « 523, 417 ». Des recherches précédentes avaient inventé des vocabulaires de positions spécialisés pour les coordonnées, mais ils n’ont pas tenu à l’échelle. L’équipe a aussi découvert que placer des instructions textuelles avant les images améliorait les performances, car les modèles pouvaient identifier les cibles tout en traitant les pixels. De plus, des méthodes d’apprentissage par renforcement comme le DPO ont amélioré la précision même après le fine-tuning.
Related News
Nvidia ouvre un partenariat de long terme en matière d’IA avec Deepinfra, qui obtient un financement de série B de 107 millions de dollars afin de créer une « usine de jetons »
Les GPT-5.5-Cyber d’OpenAI pour armer les défenseurs de la cybersécurité
OpenAI lance GPT-Realtime-2 : intègre l’inférence de GPT-5 dans les agents vocaux et fait passer le contexte à 128K