Microsoft Fara1.5: agentes browser 4B/9B/27B, 27B 72% Mind2Web vs Operator 58%

O laboratório AI Frontiers da Microsoft Research lançou Fara1.5: uma família de agentes browser computer-use em tamanhos 4B, 9B, e 27B parâmetros, construída sobre checkpoints base Qwen3.5. Os modelos lêem capturas de tela e emitem ações de mouse/teclado através de um loop observe-think-act — cada passo pega o histórico de conversa anterior mais as três capturas mais recentes, produz pensamentos e uma única ação. O espaço de ação inclui entradas padrão mais operações web-específicas (buscas) e meta-ações para gestão de contexto e esclarecimento do usuário. Online-Mind2Web (300 tarefas, 136 sites): Fara1.5-27B em 72%, Fara1.5-9B em 63,4%. Conjunto de comparação: OpenAI Operator 58,3%, Gemini 2.5 Computer Use 57,3%, Yutori Navigator n1 64,7%. WebVoyager: 27B 88,6%, 9B 86,6%, 4B 80,8%. Treinamento: ~2 milhões de amostras supervisionadas — 60% trajetórias web, 12,8% ambientes sintéticos, 12,5% preenchimento de formulários/interações, 8,8% grounding, 4,9% VQA, mais dados de segurança. Pausas de segurança em info pessoal faltante, descrições de tarefa ambíguas, ações irreversíveis sem aprovação. Disponibilidade open-source, pesos, licença, e detalhes de deploy HuggingFace/Azure não especificados ainda no anúncio.

Duas coisas a notar. Microsoft Research construindo sobre Qwen3.5 base — isso é Microsoft usando fundamentos open-weight chineses para construir um produto agêntico ocidental. O mesmo padrão cross-vendor de inicialização de pesos que cobrimos semana passada com Nemotron-Labs-Diffusion da NVIDIA construído sobre Ministral3. A Microsoft tem sua própria família Phi mas escolheu Qwen3.5 como ponto de partida para o agente browser. A comparação OpenAI Operator é o movimento estratégico. A Microsoft é a maior investidora e parceira da OpenAI, no entanto a Microsoft Research está enviando um agente browser grau-pesquisa que supera o Operator por 13,7 pontos no Online-Mind2Web. A Microsoft está cobrindo sua dependência da OpenAI construindo in-house na Microsoft Research. Três tamanhos (4B/9B/27B) significa flexibilidade de deploy: tarefas edge em 4B local, tarefas grau-servidor em 27B em datacenter. O espaço de meta-ação que suporta gestão de contexto e esclarecimento do usuário — pausa por info pessoal, pausa por tarefas ambíguas, pausa antes do irreversível — é o diferenciador que torna os agentes browser deployáveis. Agentes que não perguntam antes de ações destrutivas são agentes que você não pode colocar em produção.

Contexto do ecossistema. O espaço de agentes browser esquentando além dos incumbentes API-fechada. OpenAI Operator (fechado, classe-GPT). Google Gemini 2.5 Computer Use (fechado, baseado-Gemini). Anthropic Computer Use (fechado, baseado-Claude). Agora Microsoft Fara1.5 (baseado-Qwen3.5, três tamanhos, disponibilidade TBD). Os números de benchmark dizem que a família grau-pesquisa da Microsoft já supera a fronteira API-fechada no Online-Mind2Web. Se a Microsoft liberar pesos Fara1.5 publicamente, a categoria agente browser pesos-abertos obtém uma entrada classe-fronteira real da noite para o dia. Se eles mantiverem fechado e rotearem através de integração Azure/Bing/Edge, se torna a defesa da Microsoft contra a OpenAI capturando a camada de agente. De qualquer forma, a pressão de benchmark agora está no Operator e Gemini Computer Use para enviar a próxima iteração com números comparáveis. Para builders enviando produtos browser-automation hoje: o modelo 4B em 80,8% WebVoyager é o tamanho interessante — acessível o suficiente para deploy local, capaz o suficiente para lidar com a maioria das tarefas browser.

Segunda-feira: se você envia produtos browser-automation ou computer-use (substitutos RPA, web scraping, testes QA, automação de fluxo de trabalho de suporte ao cliente), avalie Fara1.5 assim que a disponibilidade pousar. Testes específicos em sua distribuição de tarefas: (1) fluxos de login com MFA, (2) preenchimento de formulários com lógica condicional, (3) navegação multi-página preservando estado, (4) recuperação de erros de estados de página inesperados. A variante 4B é o tamanho para começar — se 80,8% WebVoyager se traduz em 70-80% em suas tarefas, você tem um agente deployável sem inferência de datacenter. Para competidores código-fechado (Operator, Gemini Computer Use, Anthropic Computer Use): a posição competitiva de preços acabou de receber pressão real. Operator a $200/mês por usuário versus deploy-seu-próprio Fara1.5-4B localmente é uma curva de custo fundamentalmente diferente se a Microsoft liberar pesos. Observe HuggingFace e o blog da Microsoft Research nas próximas 48 horas para o anúncio de pesos e licença. A lacuna de benchmark (72% vs 58%) é real, e a consequência competitiva downstream depende se a Microsoft envia pesos ou mantém Fara1.5 como capacidade Azure-interna.

Microsoft Fara1.5: agentes browser 4B/9B/27B, 27B 72% Mind2Web vs Operator 58%

Mais notícias