Microsoft Fara1.5 : agents browser 4B/9B/27B, 27B 72% Mind2Web vs Operator 58%

Le lab AI Frontiers de Microsoft Research a sorti Fara1.5 : une famille d'agents browser computer-use aux tailles 4B, 9B, et 27B paramètres, bâtie sur des checkpoints base Qwen3.5. Les modèles lisent des screenshots et émettent des actions mouse/keyboard à travers une boucle observe-think-act — chaque step prend l'historique de conversation prior plus les trois screenshots les plus récents, output thoughts et une seule action. L'action space inclut les inputs standard plus les opérations web-specific (searches) et des meta-actions pour le context management et la clarification user. Online-Mind2Web (300 tâches, 136 sites) : Fara1.5-27B à 72%, Fara1.5-9B à 63,4%. Set de comparaison : OpenAI Operator 58,3%, Gemini 2.5 Computer Use 57,3%, Yutori Navigator n1 64,7%. WebVoyager : 27B 88,6%, 9B 86,6%, 4B 80,8%. Training : ~2 millions de samples supervisés — 60% trajectoires web, 12,8% environnements synthétiques, 12,5% form filling/interactions, 8,8% grounding, 4,9% VQA, plus safety data. Safety pauses sur info perso manquante, descriptions de tâche ambiguës, actions irréversibles sans approval. La disponibilité open-source, les weights, la license, et les détails de déploiement HuggingFace/Azure pas encore spécifiés dans l'annonce.

Deux choses à noter. Microsoft Research qui bâtit sur Qwen3.5 base — c'est Microsoft qui utilise des foundations open-weight chinoises pour bâtir un produit agentic Western. Le même pattern cross-vendor d'initialisation de weights qu'on a couvert la semaine passée avec Nemotron-Labs-Diffusion de NVIDIA bâti sur Ministral3. Microsoft a sa propre famille Phi mais a choisi Qwen3.5 comme point de départ pour l'agent browser. La comparaison OpenAI Operator c'est le move stratégique. Microsoft est le plus gros investor et partenaire d'OpenAI, pourtant Microsoft Research ship un agent browser research-grade qui outperform Operator par 13,7 points sur Online-Mind2Web. Microsoft hedge sa dépendance OpenAI en bâtissant in-house à Microsoft Research. Trois tailles (4B/9B/27B) veut dire flexibilité de déploiement : tâches edge à 4B local, tâches server-grade à 27B en datacenter. Le space de meta-action qui supporte le context management et la clarification user — pause pour info perso, pause pour tâches ambiguës, pause avant l'irréversible — c'est le différentiateur qui rend les agents browser shippables. Les agents qui demanderont pas avant des actions destructives sont des agents que tu peux pas mettre en production.

Contexte écosystème. Le space agent browser chauffe au-delà des incumbents closed-API. OpenAI Operator (closed, classe-GPT). Google Gemini 2.5 Computer Use (closed, basé Gemini). Anthropic Computer Use (closed, basé Claude). Maintenant Microsoft Fara1.5 (basé Qwen3.5, trois tailles, disponibilité TBD). Les chiffres benchmark disent que la famille research-grade de Microsoft bat déjà la frontier closed-API sur Online-Mind2Web. Si Microsoft release les weights Fara1.5 publicly, la catégorie agent browser open-weights obtient un real entry classe-frontier overnight. S'ils gardent ça closed et routent à travers l'intégration Azure/Bing/Edge, ça devient la défense de Microsoft contre OpenAI qui capture la couche agent. De toute façon, la pression benchmark est maintenant sur Operator et Gemini Computer Use pour shipper la prochaine itération avec des chiffres comparables. Pour les builders qui shippent des produits browser-automation aujourd'hui : le modèle 4B à 80,8% WebVoyager c'est la classe de taille intéressante — assez accessible pour du déploiement local, assez capable pour handle la plupart des tâches browser.

Lundi matin : si tu shippes des produits browser-automation ou computer-use (remplacements RPA, web scraping, QA testing, automation de workflow customer-support), évalue Fara1.5 dès que la disponibilité land. Tests spécifiques sur ta distribution de tâches : (1) flows de login avec MFA, (2) form filling avec logique conditionnelle, (3) navigation multi-page qui preserve l'état, (4) error-recovery depuis des états de page inattendus. La variant 4B c'est la taille pour commencer — si le 80,8% WebVoyager se traduit en 70-80% sur tes tâches, t'as un agent deployable sans inférence datacenter. Pour les compétiteurs closed-source (Operator, Gemini Computer Use, Anthropic Computer Use) : la position compétitive de pricing vient d'obtenir une vraie pression. Operator à $200/mois par user versus déployer ton-propre Fara1.5-4B localement c'est une courbe de coût fondamentalement différente si Microsoft release les weights. Watch HuggingFace et le blog Microsoft Research sur les prochaines 48 heures pour l'annonce des weights et de la license. Le gap benchmark (72% vs 58%) est réel, et la conséquence compétitive downstream dépend de si Microsoft ship les weights ou garde Fara1.5 comme capability Azure-internal.

Microsoft Fara1.5 : agents browser 4B/9B/27B, 27B 72% Mind2Web vs Operator 58%

Plus de nouvelles