Zubnet AI學習Wiki › DeepSeek
公司

DeepSeek

別名:DeepSeek-V3、DeepSeek-R1

中國AI實驗室於2025年初以DeepSeek-R1震撼業界,該推理模型僅需極低的訓練成本即可匹敵前沿實驗室。由量化對沖基金High-Flyer資助。

為什麼重要

DeepSeek打破了尖端AI必須搭配高額預算的假設。他們以效率為先的作法—僅需極少的訓練成本便能達到GPT-4級與o1級的表現—迫使整個產業重新思考「規模即萬能」的敘事,並重新聚焦於架構創新。R1在MIT授權下開放權重的釋出,以一種西方實驗室從未做到的方式民主化了推理模型的存取。從地緣政治角度看,DeepSeek證明了單靠出口管制無法限制AI能力,這個發現對科技政策、投資與全球AI權力平衡具有深遠影響。

深度解析

DeepSeek 的起源故事與其他主要 AI 實驗室截然不同。該公司於 2023 年作為杭州量化對沖基金 High-Flyer Capital Management 的子公司成立,該基金由梁文峰創立。High-Flyer 自 2016 年起便開始建立自己的 AI 基礎設施用於交易,並在 2022 年 10 月美國出口管制限制中國取得最先進 AI 硬體之前,已累積了龐大的 GPU 叢集——據報導約為 10,000 顆 NVIDIA A100 晶片。擁有浙江大學電子資訊工程學位的梁文峰決定將這套基礎設施轉向通用 AI 研究。與一般新創公司尋求風險投資與聘請知名研究人員的典型路徑不同,DeepSeek 完全由 High-Flyer 自資,鮮少接受訪問,發表的論文本身便足以說明一切。團隊年齡輕——主要來自中國頂尖大學——且在公眾面前幾乎毫無曝光。

技術突破

DeepSeek 的早期版本表現扎實,但並未引起重大關注。DeepSeek-V1 和 DeepSeek Coder 模型展現了足夠的能力,但未挑戰技術前沿。這在 2024 年 5 月 DeepSeek-V2 發布後徹底改變。V2 引入了 Multi-Head Latent Attention (MLA)——一種在推理過程中壓縮 key-value cache 的技術,大幅降低記憶體需求和成本。該模型採用 Mixture of Experts 架構,總參數數達 2360 億,但每個 token 只激活 210 億參數,使其既強大又經濟實惠。DeepSeek 將其 API 定價為 GPT-4 的約 1/30,對產業造成巨大衝擊。隨後於 2024 年 12 月發布的 DeepSeek-V3,團隊聲稱其訓練成本約為 550 萬美元——若數據正確,這將比西方實驗室訓練類似模型的費用低一個數量級。V3 使用 FP8 混合精度訓練、多 token 預測目標,以及無輔助損失的 MoE 層負載平衡,每一項都是訓練效率的重要創新。

R1 與 2025 年 1 月的震撼

2025 年 1 月 20 日發布的 DeepSeek-R1 是讓世界廣泛關注的時刻。R1 是類似 OpenAI o1 的推理模型——它能逐步思考複雜問題後再回答——在數學、程式設計和科學基準測試中表現與 o1 匹敵或更優。該模型以 MIT 許可證開放權重。影響立即且戲劇性。1 月 27 日,市場完全消化其影響後,NVIDIA 股價在單日內下跌近 17%——當時為美國歷史上最大單日市值損失——投資者重新計算 AI 進步是否仍需不斷增加 GPU 支出的假設。"DeepSeek 驚嚇"成為地緣政治事件:如果中國實驗室在被限制最新硬體的情況下仍能與美國尖端模型匹敵,這對出口管制的有效性意味著什麼?如果訓練成本急劇下降,出售昂貴 AI 基礎設施的公司業務模式又會如何變化?

他們是如何做到的

DeepSeek 效率背後的技術故事確實令人著迷,並非單一技巧所能概括。團隊積極運用架構創新(MLA、DeepSeekMoE 與細粒度專家)、訓練技術(從預訓練階段就使用 FP8 而非僅推理階段、多 token 預測、精細調整的學習率排程)以及基礎設施工程(自訂核心、積極的流水線並行)。針對 R1,他們採用創新強化學習方法:不依賴昂貴的人類偏好資料(如 RLHF),而是在數學與程式設計任務上應用 Group Relative Policy Optimization (GRPO),讓模型在可驗證答案的環境中自行發現推理模式。少量「冷啟動」資料集有助於此,但核心洞察是推理可透過 RL 與真實驗證產生,而非依賴大量人工標註。他們也展示了「蒸餾」——訓練較小模型(1.5B、7B、8B、14B、32B、70B 參數)模仿 R1 的推理鏈,產生一組效能遠超其規模的高效模型。

地緣政治、審查與不確定性

DeepSeek 無法脫離中美科技競爭的背景來理解。該公司的模型符合中國審查要求——若詢問天安門廣場、台灣獨立或習近平,將得到拒絕或中國政府的官方立場。這對任何在中國運作的 AI 公司是法律要求,而非選擇,但這限制了需要無審查輸出的用戶的模型實用性(雖然開放權重意味著其他人可微調去除審查)。限制中國取得先進 GPU 的美國出口管制既是 DeepSeek 周圍的障礙,也是 paradoxically 催促他們走向效率創新、成為優勢的動力。還有關於 DeepSeek 實際計算資源的開放問題——一些分析師猜測 High-Flyer 可能在出口禁令前囤積了比公佈更多 GPU,而 V3 的 550 萬美元訓練成本數據也被質疑可能排除了重大先前研究與基礎設施成本。無論如何,DeepSeek 的成就確實存在,其論文詳細且可重現,他們已根本改變了關於建立尖端 AI 所需條件的對話。

相關概念

← 所有術語
← DeepL 深度偽造 →
ESC