Mistral 本週把 Medium 3.5 推到 Hugging Face,按其授權開源權重:128B 稠密參數、256k 上下文、SWE-Bench Verified 77.6%、τ³-Telecom 91.4。對跑自架代理的 builder 來說,關鍵是組合 — 一個具備編程能力的 backbone,你可以拉下來、在自己的 codebase 上微調、用自己的 GPU 服務。閉源前沿仍然領先,但長尾真實 issue 解決能力的差距已經壓縮到可以讓託管選擇重新進入考量。

兩個架構選擇需要標註。第一,稠密而非 mixture-of-experts:Medium 3.5 在 SWE-Bench 上擊敗 Qwen3.5 397B-A17B(MoE,約 17B 激活),儘管絕對權重更少。Mistral 用的「合併模型」措辭意味著他們把以前 Mistral instruct 和 Devstral 編程專用模型的拆分塌縮成單一權重集,覆蓋指令、推理和編程 — 對討厭折騰兩個 endpoint 的 builder,維運更簡單。第二,77.6% 是 500 任務 Verified 子集上的 single-pass;Sonnet 4.5 的 82% 是帶 parallel test-time compute 的,所以真實比較比標題暗示的更接近。Mistral 沒披露的是污染情況以及 Vibe harness 是否後處理 — 這是把 Medium 3.5 移植到生產迴圈之前要問的下一個問題。

Vibe 這塊表面是這次發布的另一半。Vibe 已經是 Mistral 的 CLI 編程代理 — 與 Claude Code、Cursor 的 Composer、Aider 同類 — 但 Remote Agents 讓它成為真正的 Cursor/Devin 競爭者:長任務的雲沙盒執行,你在別處工作,session 可從 CLI 或 Le Chat 啟動。生態讀法:開源權重 lab 不再只是 ship 模型把 agent 表面留給 wrapper。Mistral 像 Anthropic 在 Sonnet 4.5 旁邊 ship Claude Code 那樣自己閉環。對 builder,這意味著開源 stack 現在端到端可信:可託管權重、可直接使用的 agent 表面,或拆下來按片整合。閉源 lab 的護城河收窄到 test-time compute、更深的工具整合,以及 CAISI 上線前評估管線賦予的東西。

實際動作:如果你在代理後面跑 Devstral 2 或非 Mistral 的編程專用模型,Medium 3.5 這週值得在你自己的 eval set 上做一次 benchmark 替換。單一權重集簡化部署,256k 上下文處理真實 codebase 視窗,如果你不想自己構建沙盒,Vibe Remote Agents 開箱即用。如果你已經在閉源前沿 API 上盯著 per-token 經濟,128B 稠密模型小到自架在單個 8xH100 節點上數學跑得通 — 這是開源權重代理一直缺失的那個計算。