Mistral Medium 3.5 落地:稠密 128B,256k 上下文,SWE-Bench Verified 77.6%

Mistral 已發布 Mistral Medium 3.5,一個 256k 上下文視窗的 128B 稠密模型,同時推出 Vibe(一個 CLI 編碼代理)與 Remote Agents(非同步雲端編碼會話,可從 CLI 或 Le Chat 啟動)。模型多模態,視覺編碼器是 Mistral 從零訓練以處理可變影像尺寸與寬高比 —— 不是 CLIP 改裝。權重在 HuggingFace 上開放放出。Mistral 把 3.5 描述為他們首個「flagship merged」模型,這個企業用語需要拆開看。

主打基準是 SWE-Bench Verified 77.6%,τ³-Telecom 91.4。第一個數字才是要壓力測的對象,因為 Verified 分數和評測腳手架強相關:open-hands、swe-agent、mini-swe 各自會從同一個模型給出不同通過率。Mistral 沒公開評測腳手架,這就是缺失的那一塊。誠實的對比:Claude Sonnet 4.5 在 Anthropic 公開的腳手架下、配合測試時並行計算,SWE-Bench Verified 取得 82.0%;Mistral 在未知配置下的 77.6% 是有競爭力的,但不是直接可比。256k 上下文加 128B 稠密(非 MoE)架構在這個量級上不尋常 —— 大多數同體量實驗室已轉向稀疏路由。稠密帶來更一致的延遲與更簡單的部署;代價是參數效率。

Vibe 與 Remote Agents 才是真正的產品故事。Vibe 本地執行,作為 CLI 編碼代理。Remote Agents 把這種能力擴展到隔離沙箱裡的長時雲端會話 —— 關鍵是,本地會話可以「瞬移」到雲端,歷史與狀態都保留。整合點包括:GitHub、Linear、Jira、Sentry、Slack、Teams。Mistral 正在收斂到與 Devin、Claude Code、Codex 同一種「代理 + 非同步執行」的形態,但底層是開放權重,加上對歐洲開發者與受監管產業有意義的「歐盟主權」角度。帶著 77% 級別 SWE-Bench 模型的開放權重代理基礎設施,與閉源等價物是不同的命題。

把權重拉下來,在你自己的腳手架上跑一遍,再決定相不相信 77.6%。如果你在歐盟或有資料駐留約束,這是當前前沿級編碼代理裡最可信的開放權重選項。如果你在 CLI 工具譜系裡,Vibe 值得一試 —— 透過 Le Chat 用 Remote Agents 會改變長時自主任務的成本曲線。稠密架構意味著每 token 的推論比同體量 MoE 更重;如果你自架,得為此預留預算。

Mistral Medium 3.5 落地:稠密 128B,256k 上下文,SWE-Bench Verified 77.6%

更多新聞