Mistral Medium 3.5 落地:稠密 128B,256k 上下文,SWE-Bench Verified 77.6%

Mistral 已发布 Mistral Medium 3.5,一个 256k 上下文窗口的 128B 稠密模型,同时推出 Vibe(一个 CLI 编码代理)与 Remote Agents(异步云端编码会话,可从 CLI 或 Le Chat 启动)。模型多模态,视觉编码器是 Mistral 从零训练以处理可变图像尺寸与宽高比 —— 不是 CLIP 改装。权重在 HuggingFace 上开放放出。Mistral 把 3.5 描述为他们首个「flagship merged」模型,这个企业用语需要拆开看。

主打基准是 SWE-Bench Verified 77.6%,τ³-Telecom 91.4。第一个数字才是要压力测的对象,因为 Verified 分数和评测脚手架强相关:open-hands、swe-agent、mini-swe 各自会从同一个模型给出不同通过率。Mistral 没公开评测脚手架,这就是缺失的那一块。诚实的对比:Claude Sonnet 4.5 在 Anthropic 公开的脚手架下、配合测试时并行计算,SWE-Bench Verified 取得 82.0%;Mistral 在未知配置下的 77.6% 是有竞争力的,但不是直接可比。256k 上下文加 128B 稠密(非 MoE)架构在这个量级上不寻常 —— 大多数同体量实验室已转向稀疏路由。稠密带来更一致的延迟与更简单的部署;代价是参数效率。

Vibe 与 Remote Agents 才是真正的产品故事。Vibe 本地运行,作为 CLI 编码代理。Remote Agents 把这种能力扩展到隔离沙箱里的长时云端会话 —— 关键是,本地会话可以"瞬移"到云端,历史与状态都保留。集成点包括:GitHub、Linear、Jira、Sentry、Slack、Teams。Mistral 正在收敛到与 Devin、Claude Code、Codex 同一种"代理 + 异步执行"的形态,但底层是开放权重,加上对欧洲开发者与受监管行业有意义的"欧盟主权"角度。带着 77% 级别 SWE-Bench 模型的开放权重代理基础设施,与闭源等价物是不同的命题。

把权重拉下来,在你自己的脚手架上跑一遍,再决定相不相信 77.6%。如果你在欧盟或有数据驻留约束,这是当前前沿级编码代理里最可信的开放权重选项。如果你在 CLI 工具谱系里,Vibe 值得一试 —— 通过 Le Chat 用 Remote Agents 会改变长时自主任务的成本曲线。稠密架构意味着每 token 的推理比同体量 MoE 更重;如果你自托管,得为此预留预算。

Mistral Medium 3.5 落地:稠密 128B,256k 上下文,SWE-Bench Verified 77.6%

更多新闻