DeepSeek V4-Pro 落地：1.6T 參數 MIT 開源權重，SWE-bench Verified 80.6%，輸出比 Claude Opus 4.6 便宜 7 倍

DeepSeek 在 4 月 24 日發布了 V4-Pro 和 V4-Flash，兩個都以 MIT 協議開源權重，並立刻透過 DeepSeek API 上線。頭條數字夠鋒利，本週值得放進每個開發者的評估堆疊。V4-Pro 是總參數 1.6 兆、每 token 啟動 49 億，MoE 配置，啟動密度約 3%，相對它的能力上限來說服務成本很低。V4-Flash 是更小的變體，284B/13B。兩個模型都支援 1 百萬 token 的上下文視窗，最大輸出 384K tokens，都以 MIT 協議發布，都在 Hugging Face 的 deepseek-ai 下面。V4-Pro 的 SWE-bench Verified 得分是 80.6%——和 Claude Opus 4.6 的 80.8% 只差 0.2 分——API 價格大約是輸入 1.74 美元 / 輸出 3.48 美元每百萬 token，The Rundown 的覆蓋估計這大約比閉源前沿替代品的輸出 token 便宜 7 倍。

比 benchmark 數字更值得關注的是新的混合注意力機制。V4 把 DeepSeek 稱為 Compressed Sparse Attention（CSA）和 Heavily Compressed Attention（HCA）的兩套機制結合起來，高效處理 1M 上下文。報告的影響：在 1M token 上，V4-Pro 相對 DeepSeek V3.2 同樣上下文長度，每 token 推理 FLOPs 只用 27%，KV cache 只用 10%。這比 MMLU 多一個點的結構性提升要大得多。KV cache 大小是任何合理並發下長上下文推理服務的關鍵約束，10x 的削減就是把 1M 上下文當 marketing 子彈點，和把 1M 上下文當真實生產選項之間的區別。其他實驗室會很快抄過去。

對開發者來說，實際轉變在 coding 工作負載的價格-能力前沿上。SWE-bench Verified 80.6%，本質上和 Claude Opus 4.6 的 80.8% 在雜訊範圍內，輸出成本只有七分之一，對於任何使用者不需要絕對頂配數字的高吞吐 agent 產品，算盤都變了。每任務跑幾十步推理的 coding agent——Cursor 式重構 agent、自主 PR 評審系統、自動化遷移工具——之前在閉源前沿模型上是被每 token 成本預算卡死的。用 V4-Pro，同樣的工作負載跑在一個更接近商品算力的價格點上。推論是：閉源前沿廠商沒法繼續按同樣的倍數收費；生產級 agent 推理的地板剛剛下移了。

戰略背景也值得點出。DeepSeek 在 V4 同時發布了對華為昇騰的支援，意味著整個訓練加服務堆疊都跑在國產矽上，不只是訓練好的模型。這讓 V4 成為迄今最有力的單一論據：美國出口管制塑造了、並沒有阻止中國 AI 的建設——Anthropic 和 OpenAI 的閉源前沿模型與 DeepSeek 的開源權重替代品之間的差距，現在已經小到工作負載層面的選擇取決於價格和授權，而不是能力上限。誠實的警告：DeepSeek 自家的評估方法應該和獨立運行結果對照，AA 的 Intelligence Index 把 V4-Pro 放在第四 tier 而不是頂端，而且這個週期裡 benchmark 分數越來越受到訓練資料與評估集重疊污染的影響。在拿頭條數字賭產品路線圖之前，先跑你自己的內部評估。但開源權重前沿又往閉源權重前沿所在的位置邁了一步，這對開發者生態接下來會標準化在哪些模型上有真實的影響。

DeepSeek V4-Pro 落地：1.6T 參數 MIT 開源權重，SWE-bench Verified 80.6%，輸出比 Claude Opus 4.6 便宜 7 倍

更多新聞