A Microsoft disponibiliza em open-source o modelo Phi-Ground 4B, com desempenho superior ao do OpenAI Operator e do Claude na precisão de cliques no ecrã

Segundo a Beating, a Microsoft lançou recentemente de forma open-source a família de modelos Phi-Ground, concebida para resolver o problema de onde a IA deve clicar num ecrã de computador. A versão com 4 mil milhões de parâmetros, emparelhada com modelos de linguagem maiores para planeamento de instruções, superou a precisão de cliques do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 mil milhões de parâmetros, em cinco avaliações, incluindo ScreenSpot-Pro.

A equipa treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas de treino comuns utilizadas em artigos académicos deixaram de ser eficazes à escala. A abordagem principal revelou-se simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores inventaram vocabulários de posições especializados para coordenadas, mas isso não escalou. A equipa também descobriu que colocar instruções de texto antes das imagens melhorou o desempenho, já que os modelos podiam identificar alvos ao processar os pixéis. Além disso, métodos de aprendizagem por reforço como DPO melhoraram a precisão mesmo após afinação (fine-tuning).

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário