DeepSeek 在 4 月 24 日發布了 V4-Pro 和 V4-Flash,兩個都以 MIT 協議開源權重,並立刻透過 DeepSeek API 上線。頭條數字夠鋒利,本週值得放進每個開發者的評估堆疊。V4-Pro 是總參數 1.6 兆、每 token 啟動 49 億,MoE 配置,啟動密度約 3%,相對它的能力上限來說服務成本很低。V4-Flash 是更小的變體,284B/13B。兩個模型都支援 1 百萬 token 的上下文視窗,最大輸出 384K tokens,都以 MIT 協議發布,都在 Hugging Face 的 deepseek-ai 下面。V4-Pro 的 SWE-bench Verified 得分是 80.6%——和 Claude Opus 4.6 的 80.8% 只差 0.2 分——API 價格大約是輸入 1.74 美元 / 輸出 3.48 美元每百萬 token,The Rundown 的覆蓋估計這大約比閉源前沿替代品的輸出 token 便宜 7 倍。

比 benchmark 數字更值得關注的是新的混合注意力機制。V4 把 DeepSeek 稱為 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)的兩套機制結合起來,高效處理 1M 上下文。報告的影響:在 1M token 上,V4-Pro 相對 DeepSeek V3.2 同樣上下文長度,每 token 推理 FLOPs 只用 27%,KV cache 只用 10%。這比 MMLU 多一個點的結構性提升要大得多。KV cache 大小是任何合理並發下長上下文推理服務的關鍵約束,10x 的削減就是把 1M 上下文當 marketing 子彈點,和把 1M 上下文當真實生產選項之間的區別。其他實驗室會很快抄過去。

對開發者來說,實際轉變在 coding 工作負載的價格-能力前沿上。SWE-bench Verified 80.6%,本質上和 Claude Opus 4.6 的 80.8% 在雜訊範圍內,輸出成本只有七分之一,對於任何使用者不需要絕對頂配數字的高吞吐 agent 產品,算盤都變了。每任務跑幾十步推理的 coding agent——Cursor 式重構 agent、自主 PR 評審系統、自動化遷移工具——之前在閉源前沿模型上是被每 token 成本預算卡死的。用 V4-Pro,同樣的工作負載跑在一個更接近商品算力的價格點上。推論是:閉源前沿廠商沒法繼續按同樣的倍數收費;生產級 agent 推理的地板剛剛下移了。

戰略背景也值得點出。DeepSeek 在 V4 同時發布了對華為昇騰的支援,意味著整個訓練加服務堆疊都跑在國產矽上,不只是訓練好的模型。這讓 V4 成為迄今最有力的單一論據:美國出口管制塑造了、並沒有阻止中國 AI 的建設——Anthropic 和 OpenAI 的閉源前沿模型與 DeepSeek 的開源權重替代品之間的差距,現在已經小到工作負載層面的選擇取決於價格和授權,而不是能力上限。誠實的警告:DeepSeek 自家的評估方法應該和獨立運行結果對照,AA 的 Intelligence Index 把 V4-Pro 放在第四 tier 而不是頂端,而且這個週期裡 benchmark 分數越來越受到訓練資料與評估集重疊污染的影響。在拿頭條數字賭產品路線圖之前,先跑你自己的內部評估。但開源權重前沿又往閉源權重前沿所在的位置邁了一步,這對開發者生態接下來會標準化在哪些模型上有真實的影響。