Nesta semana, a Microsoft Research lançou o Fara1.5, um modelo de IA de pesos abertos para tarefas de navegação na web, que superou o OpenAI Operator e o Gemini 2.5 Computer Use em benchmarks da indústria. O Fara1.5-27B marcou 72% no Online-Mind2Web, contra 58,3% do OpenAI Operator e 57,3% do Gemini 2.5 Computer Use. O lançamento representa uma mudança no cenário competitivo dos agentes de uso de computador — sistemas de IA projetados para ler telas do navegador e executar ações como clicar, rolar e digitar, sem exigir plugins especiais. Diferente do Operator proprietário e baseado na nuvem da OpenAI (lançado em janeiro de 2025 por US$ 200 mensais antes de ser encerrado em agosto) e da oferta do Google Gemini, o Fara1.5 é de código aberto, com pesos disponibilizados publicamente. A Microsoft alcançou esse desempenho ao repensar todo o processo de desenvolvimento, de geração de dados e objetivos de treinamento ao desenho do modelo e orquestração.
Especificações do Modelo e Disponibilidade
O Fara1.5 vem em três tamanhos: 4 bilhões, 9 bilhões e 27 bilhões de parâmetros, todos construídos sobre o Qwen 3.5, um modelo base da Alibaba que a Microsoft ajustou especificamente para trabalho no navegador. O Fara1.5-9B, a variante intermediária, marcou 63,4% no Online-Mind2Web — à frente das ofertas da OpenAI e do Google. O modelo de 9 bilhões de parâmetros já está ativo no Azure AI Foundry, enquanto as variantes de 4 bilhões e 27 bilhões chegam em breve.
Desempenho em Benchmarks
O Online-Mind2Web, o benchmark principal, testa com que frequência um agente de IA completa corretamente 300 tarefas diversas e do mundo real em 136 sites populares ao vivo, incluindo comparações de produtos, preenchimento de formulários e serviços de reserva. A pontuação reflete tarefas concluídas corretamente na internet real e em constante mudança.
No WebVoyager, um segundo benchmark que mede a taxa de sucesso de tarefas na web ao vivo, o Fara1.5-27B alcançou 88,6%, ultrapassando o OpenAI Operator em 87,0% e superando o Holo2 da H Company (30 bilhões de parâmetros) em 83,0%.
Concorrentes de código aberto pontuaram mais baixo: o GUI-Owl-1.5 da Alibaba (8 bilhões de parâmetros) chegou a 48,6%, enquanto o MolmoWeb da AI2 marcou 35,3%. O modelo anterior da Microsoft, o Fara-7B, marcou 34,1% — ou seja, o Fara1.5-27B quase dobrou o desempenho do seu antecessor no mesmo porte. O Navigator n1 da Yutori, a principal alternativa proprietária, atingiu 64,7%.
Metodologia de Treinamento
A Microsoft usou o FaraGen1.5 para gerar dados de treinamento, empregando o GPT-5.4 — modelo da OpenAI — como um “agente professor” para demonstrar como concluir tarefas no navegador. Essas demonstrações viraram dados de treinamento para o Fara1.5.
A equipe também criou seis réplicas totalmente funcionais de sites reais, incluindo clientes de e-mail, calendários e marketplaces. Esse treinamento em domínio sintético permitiu ao modelo praticar tarefas que exigem logins ou ações irreversíveis sem acessar contas reais, melhorando o desempenho em tarefas “protegidas”.
Segurança e Controle do Usuário
Todo modelo é projetado para parar e pedir antes de executar ações irreversíveis. O Fara1.5 roda no MagenticLite, um ambiente de navegador em sandbox que registra cada ação e permite que os usuários interrompam o agente a qualquer momento. Segundo Yash Lara, Senior PM Lead na Microsoft Research, “equilibrar salvaguardas robustas como Critical Points com jornadas de usuário sem atrito é a chave. Ter uma UI, como a Magentic-UI da Microsoft Research, é vital para dar aos usuários oportunidades de intervir quando necessário, ajudando também a evitar fadiga de aprovação”.
Expansão Futura
A Microsoft afirmou que planeja expandir o Fara1.5 além do navegador para aplicações de desktop e software corporativo.