Microsoft Research 旗下 AI Frontiers 實驗室發布了 Fara1.5:一組瀏覽器 computer-use agent,4B、9B、27B 三個參數尺寸,底座是 Qwen3.5。模型讀螢幕截圖、輸出滑鼠/鍵盤動作,走 observe-think-act 迴圈 —— 每一步帶上之前的對話歷史 + 最近 3 張截圖,輸出 thoughts 和一個動作。Action 空間除了標準輸入,還包括 web 專用操作(搜尋)和用於「上下文管理 + 向使用者澄清」的 meta-action。Online-Mind2Web(300 個任務、136 個網站):Fara1.5-27B 72%、Fara1.5-9B 63.4%。對照組:OpenAI Operator 58.3%、Gemini 2.5 Computer Use 57.3%、Yutori Navigator n1 64.7%。WebVoyager:27B 88.6%、9B 86.6%、4B 80.8%。訓練:大概 200 萬監督樣本 —— 60% 是 web 軌跡、12.8% 合成環境、12.5% 表單填寫/互動、8.8% grounding、4.9% VQA,外加 safety 資料。Safety 行為:個人資訊缺失時停下來問、任務描述模糊時停下來問、做不可逆動作前要核可。開源、權重、授權、HuggingFace/Azure 部署細節,這次公告裡都還沒寫。
兩件事值得點出來。第一,Microsoft Research 用 Qwen3.5 當底座 —— Microsoft 在用中國系開源權重的 foundation 去造一個西方的 agentic 產品。這跟上週我們覆蓋過的 NVIDIA Nemotron-Labs-Diffusion 用 Ministral3 起手,是同一種「跨廠權重初始化」pattern。Microsoft 自己有 Phi 家族,但在 browser agent 這件事上選了 Qwen3.5。第二,對 OpenAI Operator 的對照才是戰略層面的真訊號。Microsoft 是 OpenAI 最大的投資人 + 合作夥伴,可 Microsoft Research 端出來的這個 research-grade browser agent 在 Online-Mind2Web 上把 Operator 高 13.7 個點。Microsoft 在用 Microsoft Research 內部建能力,對「依賴 OpenAI」做對沖。三個尺寸(4B/9B/27B)意味著部署上很靈活:edge 用 4B 本地跑、生產級任務 27B 上資料中心。Meta-action 空間裡那幾條(上下文管理、向使用者澄清、個人資訊暫停、任務模糊暫停、不可逆動作前暫停)才是把 browser agent 從「demo」推到「可上線」的差異點。一個不知道在動手前要問一下的 agent,你是不敢放上生產的。
生態背景。Browser agent 這條線現在不再只是閉源 API 在位玩家。OpenAI Operator(閉源、GPT 級)、Google Gemini 2.5 Computer Use(閉源、Gemini 基座)、Anthropic Computer Use(閉源、Claude 基座)、現在再加 Microsoft Fara1.5(Qwen3.5 基座、三個尺寸、可用性 TBD)。benchmark 數字告訴你的事:Microsoft research-grade 這一支,在 Online-Mind2Web 上已經把閉源 API 的 frontier 給壓過去了。如果 Microsoft 把 Fara1.5 權重放出來,開源權重的 browser agent 這一檔,一夜之間就多了一個 frontier 級選手。如果他們選擇閉源、走 Azure/Bing/Edge 整合,那就是 Microsoft 對「OpenAI 佔住 agent 層」的一次防禦性動作。兩邊都行,但 benchmark 的壓力現在壓在 Operator 和 Gemini Computer Use 頭上 —— 下一版要拿出能對上 72% 的數字。對在做 browser-automation 產品的 builder:4B 在 WebVoyager 上 80.8% 才是真正有意思的那個尺寸 —— 能本地部署,又能覆蓋大部分 browser 任務。
週一上手:如果你在做 browser-automation 或者 computer-use 產品(RPA 替換、web 抓取、QA 測試、客戶支援 workflow 自動化),Fara1.5 一上線就排進評估佇列。具體測試,放到你自己的任務分布上:(1) 帶 MFA 的登入流;(2) 含條件邏輯的表單填寫;(3) 多頁面導覽並保持狀態;(4) 頁面進入意外狀態後的 error-recovery。4B 這個尺寸是切入點 —— 如果 80.8% WebVoyager 翻譯成你任務上的 70-80%,你就拿到了一個不用資料中心推論就能部署的 agent。對閉源競品(Operator、Gemini Computer Use、Anthropic Computer Use):pricing 上的競爭壓力真的來了。Operator 每使用者每月 $200,跟你自己本地跑一個 Fara1.5-4B,如果 Microsoft 放權重,這是兩條根本不同的成本曲線。盯接下來 48 小時 HuggingFace 和 Microsoft Research 部落格的權重和授權公告。benchmark 這道 72% vs 58% 的差,是真實的;下游競爭的具體走向,取決於 Microsoft 是否把權重放出來,還是把 Fara1.5 留作 Azure 內部能力。
