Segundo Beating, a Microsoft recentemente disponibilizou em código aberto a família de modelos Phi-Ground, projetada para resolver o problema de onde a IA deve clicar em uma tela de computador. A versão de 4 bilhões de parâmetros, combinada com modelos de linguagem maiores para planejamento de instruções, superou a precisão de clique do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 bilhões de parâmetros em cinco avaliações, incluindo ScreenSpot-Pro.
A equipe treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas comuns de treinamento usadas em artigos acadêmicos se tornaram ineficazes em escala. A abordagem principal se mostrou simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores criaram vocabulários especializados de posição para coordenadas, mas isso não funcionou em escala. A equipe também descobriu que colocar instruções de texto antes das imagens melhora o desempenho, pois os modelos conseguem identificar os alvos ao processar pixels. Além disso, métodos de aprendizado por reforço como DPO melhoraram a precisão mesmo após o fine-tuning.
Related News
NVIDIA firma parceria de longo prazo com a AI aberta Deepinfra e obtém US$ 107 milhões na rodada B para criar uma "fábrica de tokens"
Os braços cibernéticos do GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos
OpenAI lança o GPT-Realtime-2: leva o raciocínio do GPT-5 para agentes de voz e eleva o contexto para 128K