DeepSeek 在 4 月 24 日发布了 V4-Pro 和 V4-Flash,两个都以 MIT 协议开源权重,并立刻通过 DeepSeek API 上线。头条数字够锋利,本周值得放进每个开发者的评估栈。V4-Pro 是总参数 1.6 万亿、每 token 激活 49 亿,MoE 配置,激活密度约 3%,相对它的能力上限来说服务成本很低。V4-Flash 是更小的变体,284B/13B。两个模型都支持 1 百万 token 的上下文窗口,最大输出 384K tokens,都以 MIT 协议发布,都在 Hugging Face 的 deepseek-ai 下面。V4-Pro 的 SWE-bench Verified 得分是 80.6%——和 Claude Opus 4.6 的 80.8% 只差 0.2 分——API 价格大约是输入 1.74 美元 / 输出 3.48 美元每百万 token,The Rundown 的覆盖估计这大约比闭源前沿替代品的输出 token 便宜 7 倍。

比 benchmark 数字更值得关注的是新的混合注意力机制。V4 把 DeepSeek 称为 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)的两套机制结合起来,高效处理 1M 上下文。报告的影响:在 1M token 上,V4-Pro 相对 DeepSeek V3.2 同样上下文长度,每 token 推理 FLOPs 只用 27%,KV cache 只用 10%。这比 MMLU 多一个点的结构性提升要大得多。KV cache 大小是任何合理并发下长上下文推理服务的关键约束,10x 的削减就是把 1M 上下文当 marketing 子弹点,和把 1M 上下文当真实生产选项之间的区别。其他实验室会很快抄过去。

对开发者来说,实际转变在 coding 工作负载的价格-能力前沿上。SWE-bench Verified 80.6%,本质上和 Claude Opus 4.6 的 80.8% 在噪声范围内,输出成本只有七分之一,对于任何用户不需要绝对顶配数字的高吞吐 agent 产品,算盘都变了。每任务跑几十步推理的 coding agent——Cursor 式重构 agent、自主 PR 评审系统、自动化迁移工具——之前在闭源前沿模型上是被每 token 成本预算卡死的。用 V4-Pro,同样的工作负载跑在一个更接近商品算力的价格点上。推论是:闭源前沿厂商没法继续按同样的倍数收费;生产级 agent 推理的地板刚刚下移了。

战略背景也值得点出。DeepSeek 在 V4 同时发布了对华为昇腾的支持,意味着整个训练加服务栈都跑在国产硅上,不只是训练好的模型。这让 V4 成为迄今最有力的单一论据:美国出口管制塑造了、并没有阻止中国 AI 的建设——Anthropic 和 OpenAI 的闭源前沿模型与 DeepSeek 的开源权重替代品之间的差距,现在已经小到工作负载层面的选择取决于价格和许可证,而不是能力上限。诚实的警告:DeepSeek 自家的评估方法应该和独立运行结果对照,AA 的 Intelligence Index 把 V4-Pro 放在第四 tier 而不是顶端,而且这个周期里 benchmark 分数越来越受到训练数据与评估集重叠污染的影响。在拿头条数字赌产品路线图之前,先跑你自己的内部评估。但开源权重前沿又往闭源权重前沿所在的位置迈了一步,这对开发者生态接下来会标准化在哪些模型上有真实的影响。