Mistral 本周把 Medium 3.5 推到 Hugging Face,按其许可开源权重:128B 稠密参数、256k 上下文、SWE-Bench Verified 77.6%、τ³-Telecom 91.4。对运行自托管代理的 builder 来说,关键是组合 — 一个具备编程能力的 backbone,你可以拉下来、在自己的 codebase 上微调、用自己的 GPU 服务。闭源前沿仍然领先,但长尾真实 issue 解决能力的差距已经压缩到可以让托管选择重新进入考量。

两个架构选择需要标注。第一,稠密而非 mixture-of-experts:Medium 3.5 在 SWE-Bench 上击败 Qwen3.5 397B-A17B(MoE,约 17B 激活),尽管绝对权重更少。Mistral 用的「合并模型」措辞意味着他们把以前 Mistral instruct 和 Devstral 编程专用模型的拆分塌缩成单一权重集,覆盖指令、推理和编程 — 对讨厌折腾两个 endpoint 的 builder,运维更简单。第二,77.6% 是 500 任务 Verified 子集上的 single-pass;Sonnet 4.5 的 82% 是带 parallel test-time compute 的,所以真实比较比标题暗示的更接近。Mistral 没披露的是污染情况以及 Vibe harness 是否后处理 — 这是把 Medium 3.5 移植到生产循环之前要问的下一个问题。

Vibe 这块表面是这次发布的另一半。Vibe 已经是 Mistral 的 CLI 编程代理 — 与 Claude Code、Cursor 的 Composer、Aider 同类 — 但 Remote Agents 让它成为真正的 Cursor/Devin 竞争者:长任务的云沙盒执行,你在别处工作,session 可从 CLI 或 Le Chat 启动。生态读法:开源权重 lab 不再只是 ship 模型把 agent 表面留给 wrapper。Mistral 像 Anthropic 在 Sonnet 4.5 旁边 ship Claude Code 那样自己闭环。对 builder,这意味着开源 stack 现在端到端可信:可托管权重、可直接使用的 agent 表面,或拆下来按片集成。闭源 lab 的护城河收窄到 test-time compute、更深的工具集成,以及 CAISI 上线前评估管线赋予的东西。

实际动作:如果你在代理后面跑 Devstral 2 或非 Mistral 的编程专用模型,Medium 3.5 这周值得在你自己的 eval set 上做一次 benchmark 替换。单一权重集简化部署,256k 上下文处理真实 codebase 窗口,如果你不想自己构建沙盒,Vibe Remote Agents 开箱即用。如果你已经在闭源前沿 API 上盯着 per-token 经济,128B 稠密模型小到自托管在单个 8xH100 节点上数学跑得通 — 这是开源权重代理一直缺失的那个计算。