Microsoft met en open-source le modèle Phi-Ground 4B, surpassant OpenAI Operator et Claude en précision de clic à l’écran

D’après Beating, Microsoft a récemment open-sourcé la famille de modèles Phi-Ground, conçue pour résoudre le problème de l’endroit où l’IA doit cliquer sur un écran d’ordinateur. La version à 4 milliards de paramètres, associée à de grands modèles de langage pour la planification des instructions, a dépassé la précision de clic d’OpenAI Operator et de Claude Computer Use lors du benchmark Showdown et s’est classée première parmi tous les modèles de moins de 100 milliards de paramètres sur cinq évaluations, dont ScreenSpot-Pro.

L’équipe a entraîné le modèle sur plus de 40 millions d’exemples de données et a constaté que trois techniques d’entraînement courantes utilisées dans des articles académiques devenaient inefficaces à grande échelle. L’approche clé s’est révélée simple : produire des coordonnées sous forme de nombres ordinaires, tels que « 523, 417 ». Des recherches précédentes avaient inventé des vocabulaires de positions spécialisés pour les coordonnées, mais ils n’ont pas tenu à l’échelle. L’équipe a aussi découvert que placer des instructions textuelles avant les images améliorait les performances, car les modèles pouvaient identifier les cibles tout en traitant les pixels. De plus, des méthodes d’apprentissage par renforcement comme le DPO ont amélioré la précision même après le fine-tuning.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire