Mistral Medium 3.5：128B 稠密开源权重，SWE-Bench Verified 77.6%

Mistral 本周把 Medium 3.5 推到 Hugging Face，按其许可开源权重：128B 稠密参数、256k 上下文、SWE-Bench Verified 77.6%、τ³-Telecom 91.4。对运行自托管代理的 builder 来说，关键是组合 — 一个具备编程能力的 backbone，你可以拉下来、在自己的 codebase 上微调、用自己的 GPU 服务。闭源前沿仍然领先，但长尾真实 issue 解决能力的差距已经压缩到可以让托管选择重新进入考量。

两个架构选择需要标注。第一，稠密而非 mixture-of-experts：Medium 3.5 在 SWE-Bench 上击败 Qwen3.5 397B-A17B（MoE，约 17B 激活），尽管绝对权重更少。Mistral 用的「合并模型」措辞意味着他们把以前 Mistral instruct 和 Devstral 编程专用模型的拆分塌缩成单一权重集，覆盖指令、推理和编程 — 对讨厌折腾两个 endpoint 的 builder，运维更简单。第二，77.6% 是 500 任务 Verified 子集上的 single-pass；Sonnet 4.5 的 82% 是带 parallel test-time compute 的，所以真实比较比标题暗示的更接近。Mistral 没披露的是污染情况以及 Vibe harness 是否后处理 — 这是把 Medium 3.5 移植到生产循环之前要问的下一个问题。

Vibe 这块表面是这次发布的另一半。Vibe 已经是 Mistral 的 CLI 编程代理 — 与 Claude Code、Cursor 的 Composer、Aider 同类 — 但 Remote Agents 让它成为真正的 Cursor/Devin 竞争者：长任务的云沙盒执行，你在别处工作，session 可从 CLI 或 Le Chat 启动。生态读法：开源权重 lab 不再只是 ship 模型把 agent 表面留给 wrapper。Mistral 像 Anthropic 在 Sonnet 4.5 旁边 ship Claude Code 那样自己闭环。对 builder，这意味着开源 stack 现在端到端可信：可托管权重、可直接使用的 agent 表面，或拆下来按片集成。闭源 lab 的护城河收窄到 test-time compute、更深的工具集成，以及 CAISI 上线前评估管线赋予的东西。

实际动作：如果你在代理后面跑 Devstral 2 或非 Mistral 的编程专用模型，Medium 3.5 这周值得在你自己的 eval set 上做一次 benchmark 替换。单一权重集简化部署，256k 上下文处理真实 codebase 窗口，如果你不想自己构建沙盒，Vibe Remote Agents 开箱即用。如果你已经在闭源前沿 API 上盯着 per-token 经济，128B 稠密模型小到自托管在单个 8xH100 节点上数学跑得通 — 这是开源权重代理一直缺失的那个计算。

Mistral Medium 3.5：128B 稠密开源权重，SWE-Bench Verified 77.6%

更多新闻