Segundo a Beating, a Microsoft lançou recentemente de forma open-source a família de modelos Phi-Ground, concebida para resolver o problema de onde a IA deve clicar num ecrã de computador. A versão com 4 mil milhões de parâmetros, emparelhada com modelos de linguagem maiores para planeamento de instruções, superou a precisão de cliques do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 mil milhões de parâmetros, em cinco avaliações, incluindo ScreenSpot-Pro.
A equipa treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas de treino comuns utilizadas em artigos académicos deixaram de ser eficazes à escala. A abordagem principal revelou-se simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores inventaram vocabulários de posições especializados para coordenadas, mas isso não escalou. A equipa também descobriu que colocar instruções de texto antes das imagens melhorou o desempenho, já que os modelos podiam identificar alvos ao processar os pixéis. Além disso, métodos de aprendizagem por reforço como DPO melhoraram a precisão mesmo após afinação (fine-tuning).
Related News
A Nvidia abre uma parceria de IA a longo prazo com a Deepinfra, que angaria 107 milhões de dólares na sua ronda B para criar uma «fábrica de tokens»
Os GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos
A OpenAI lança o GPT-Realtime-2: leva a inferência do GPT-5 para agentes de voz e eleva o contexto para 128K