Microsoft Fara1.5:4B/9B/27B 浏览器 agent,27B 在 Mind2Web 上 72%,Operator 58%

Microsoft Research 旗下 AI Frontiers 实验室发布了 Fara1.5:一组浏览器 computer-use agent,4B、9B、27B 三个参数尺寸,底座是 Qwen3.5。模型读屏幕截图、输出鼠标/键盘动作,走 observe-think-act 循环 —— 每一步带上之前的对话历史 + 最近 3 张截图,输出 thoughts 和一个动作。Action 空间除了标准输入,还包括 web 专用操作(搜索)和用于「上下文管理 + 向用户澄清」的 meta-action。Online-Mind2Web(300 个任务、136 个站点):Fara1.5-27B 72%、Fara1.5-9B 63.4%。对照组:OpenAI Operator 58.3%、Gemini 2.5 Computer Use 57.3%、Yutori Navigator n1 64.7%。WebVoyager:27B 88.6%、9B 86.6%、4B 80.8%。训练:大概 200 万监督样本 —— 60% 是 web 轨迹、12.8% 合成环境、12.5% 表单填写/交互、8.8% grounding、4.9% VQA,外加 safety 数据。Safety 行为:个人信息缺失时停下来问、任务描述模糊时停下来问、做不可逆动作前要批准。开源、权重、许可证、HuggingFace/Azure 部署细节,这次公告里都还没写。

两件事值得点出来。第一,Microsoft Research 用 Qwen3.5 当底座 —— Microsoft 在用中国系开源权重的 foundation 去造一个西方的 agentic 产品。这跟上周我们覆盖过的 NVIDIA Nemotron-Labs-Diffusion 用 Ministral3 起手,是同一种「跨厂权重初始化」pattern。Microsoft 自己有 Phi 家族,但在 browser agent 这件事上选了 Qwen3.5。第二,对 OpenAI Operator 的对照才是战略层面的真信号。Microsoft 是 OpenAI 最大的投资人 + 合作伙伴,可 Microsoft Research 端出来的这个 research-grade browser agent 在 Online-Mind2Web 上把 Operator 高 13.7 个点。Microsoft 在用 Microsoft Research 内部建能力,对「依赖 OpenAI」做对冲。三个尺寸(4B/9B/27B)意味着部署上很灵活:edge 用 4B 本地跑、生产级任务 27B 上数据中心。Meta-action 空间里那几条(上下文管理、向用户澄清、个人信息暂停、任务模糊暂停、不可逆动作前暂停)才是把 browser agent 从「demo」推到「可上线」的差异点。一个不知道在动手前要问一下的 agent,你是不敢放上生产的。

生态背景。Browser agent 这条线现在不再只是闭源 API 在位玩家。OpenAI Operator(闭源、GPT 级)、Google Gemini 2.5 Computer Use(闭源、Gemini 基座)、Anthropic Computer Use(闭源、Claude 基座)、现在再加 Microsoft Fara1.5(Qwen3.5 基座、三个尺寸、可用性 TBD)。benchmark 数字告诉你的事:Microsoft research-grade 这一支,在 Online-Mind2Web 上已经把闭源 API 的 frontier 给压过去了。如果 Microsoft 把 Fara1.5 权重放出来,开源权重的 browser agent 这一档,一夜之间就多了一个 frontier 级选手。如果他们选择闭源、走 Azure/Bing/Edge 整合,那就是 Microsoft 对「OpenAI 占住 agent 层」的一次防御性动作。两边都行,但 benchmark 的压力现在压在 Operator 和 Gemini Computer Use 头上 —— 下一版要拿出能对上 72% 的数字。对在做 browser-automation 产品的 builder:4B 在 WebVoyager 上 80.8% 才是真正有意思的那个尺寸 —— 能本地部署,又能覆盖大部分 browser 任务。

周一上手:如果你在做 browser-automation 或者 computer-use 产品(RPA 替换、web 抓取、QA 测试、客户支持 workflow 自动化),Fara1.5 一上线就排进评估队列。具体测试,放到你自己的任务分布上:(1) 带 MFA 的登录流;(2) 含条件逻辑的表单填写;(3) 多页面导航并保持状态;(4) 页面进入意外状态后的 error-recovery。4B 这个尺寸是切入点 —— 如果 80.8% WebVoyager 翻译成你任务上的 70-80%,你就拿到了一个不用数据中心推理就能部署的 agent。对闭源竞品(Operator、Gemini Computer Use、Anthropic Computer Use):pricing 上的竞争压力真的来了。Operator 每用户每月 $200,跟你自己本地跑一个 Fara1.5-4B,如果 Microsoft 放权重,这是两条根本不同的成本曲线。盯接下来 48 小时 HuggingFace 和 Microsoft Research 博客的权重和许可证公告。benchmark 这道 72% vs 58% 的差,是真实的;下游竞争的具体走向,取决于 Microsoft 是否把权重放出来,还是把 Fara1.5 留作 Azure 内部能力。

Microsoft Fara1.5:4B/9B/27B 浏览器 agent,27B 在 Mind2Web 上 72%,Operator 58%

更多新闻