DeepSeek V4-Pro 落地：1.6T 参数 MIT 开源权重，SWE-bench Verified 80.6%，输出比 Claude Opus 4.6 便宜 7 倍

DeepSeek 在 4 月 24 日发布了 V4-Pro 和 V4-Flash，两个都以 MIT 协议开源权重，并立刻通过 DeepSeek API 上线。头条数字够锋利，本周值得放进每个开发者的评估栈。V4-Pro 是总参数 1.6 万亿、每 token 激活 49 亿，MoE 配置，激活密度约 3%，相对它的能力上限来说服务成本很低。V4-Flash 是更小的变体，284B/13B。两个模型都支持 1 百万 token 的上下文窗口，最大输出 384K tokens，都以 MIT 协议发布，都在 Hugging Face 的 deepseek-ai 下面。V4-Pro 的 SWE-bench Verified 得分是 80.6%——和 Claude Opus 4.6 的 80.8% 只差 0.2 分——API 价格大约是输入 1.74 美元 / 输出 3.48 美元每百万 token，The Rundown 的覆盖估计这大约比闭源前沿替代品的输出 token 便宜 7 倍。

比 benchmark 数字更值得关注的是新的混合注意力机制。V4 把 DeepSeek 称为 Compressed Sparse Attention（CSA）和 Heavily Compressed Attention（HCA）的两套机制结合起来，高效处理 1M 上下文。报告的影响：在 1M token 上，V4-Pro 相对 DeepSeek V3.2 同样上下文长度，每 token 推理 FLOPs 只用 27%，KV cache 只用 10%。这比 MMLU 多一个点的结构性提升要大得多。KV cache 大小是任何合理并发下长上下文推理服务的关键约束，10x 的削减就是把 1M 上下文当 marketing 子弹点，和把 1M 上下文当真实生产选项之间的区别。其他实验室会很快抄过去。

对开发者来说，实际转变在 coding 工作负载的价格-能力前沿上。SWE-bench Verified 80.6%，本质上和 Claude Opus 4.6 的 80.8% 在噪声范围内，输出成本只有七分之一，对于任何用户不需要绝对顶配数字的高吞吐 agent 产品，算盘都变了。每任务跑几十步推理的 coding agent——Cursor 式重构 agent、自主 PR 评审系统、自动化迁移工具——之前在闭源前沿模型上是被每 token 成本预算卡死的。用 V4-Pro，同样的工作负载跑在一个更接近商品算力的价格点上。推论是：闭源前沿厂商没法继续按同样的倍数收费；生产级 agent 推理的地板刚刚下移了。

战略背景也值得点出。DeepSeek 在 V4 同时发布了对华为昇腾的支持，意味着整个训练加服务栈都跑在国产硅上，不只是训练好的模型。这让 V4 成为迄今最有力的单一论据：美国出口管制塑造了、并没有阻止中国 AI 的建设——Anthropic 和 OpenAI 的闭源前沿模型与 DeepSeek 的开源权重替代品之间的差距，现在已经小到工作负载层面的选择取决于价格和许可证，而不是能力上限。诚实的警告：DeepSeek 自家的评估方法应该和独立运行结果对照，AA 的 Intelligence Index 把 V4-Pro 放在第四 tier 而不是顶端，而且这个周期里 benchmark 分数越来越受到训练数据与评估集重叠污染的影响。在拿头条数字赌产品路线图之前，先跑你自己的内部评估。但开源权重前沿又往闭源权重前沿所在的位置迈了一步，这对开发者生态接下来会标准化在哪些模型上有真实的影响。

DeepSeek V4-Pro 落地：1.6T 参数 MIT 开源权重，SWE-bench Verified 80.6%，输出比 Claude Opus 4.6 便宜 7 倍

更多新闻