A Microsoft disponibiliza como código aberto o modelo Phi-Ground 4B, superando o OpenAI Operator e o Claude em precisão ao clicar na tela

Segundo Beating, a Microsoft recentemente disponibilizou em código aberto a família de modelos Phi-Ground, projetada para resolver o problema de onde a IA deve clicar em uma tela de computador. A versão de 4 bilhões de parâmetros, combinada com modelos de linguagem maiores para planejamento de instruções, superou a precisão de clique do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 bilhões de parâmetros em cinco avaliações, incluindo ScreenSpot-Pro.

A equipe treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas comuns de treinamento usadas em artigos acadêmicos se tornaram ineficazes em escala. A abordagem principal se mostrou simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores criaram vocabulários especializados de posição para coordenadas, mas isso não funcionou em escala. A equipe também descobriu que colocar instruções de texto antes das imagens melhora o desempenho, pois os modelos conseguem identificar os alvos ao processar pixels. Além disso, métodos de aprendizado por reforço como DPO melhoraram a precisão mesmo após o fine-tuning.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários