Zubnet AI学习Wiki › DeepSeek
公司

DeepSeek

别名:DeepSeek-V3、DeepSeek-R1
中国人工智能实验室于2025年初凭借DeepSeek-R1推理模型震撼行业,该模型以仅需顶尖实验室几分之一的训练成本,与前沿实验室展开竞争。该实验室由量化对冲基金High-Flyer支持。

为什么重要

DeepSeek打破了前沿AI需要前沿预算的假设。他们以效率优先的方法——以远低于训练成本实现GPT-4级别和o1级别性能——迫使整个行业重新思考“规模即一切”的叙事,并重新聚焦于架构创新。在MIT许可证下开放权重的R1版本以一种西方实验室未曾做到的方式民主化了推理模型的获取。从地缘政治角度看,DeepSeek证明了仅凭出口管制无法遏制AI能力,这一认识对科技政策、投资和全球AI权力平衡具有深远影响。

深度解析

DeepSeek 的起源故事与其他主要人工智能实验室截然不同。该公司于 2023 年作为杭州量化对冲基金 High-Flyer Capital Management 的子公司成立,High-Flyer 由梁文峰创立。早在 2016 年,High-Flyer 就开始构建自己的 AI 交易基础设施,并在 2022 年 10 月美国出口管制切断中国获取最先进 AI 硬件的通道之前,已积累了相当规模的 GPU 集群——据称约有 10,000 块 NVIDIA A100 芯片。梁文峰拥有浙江大学电子信息系统工程学位,决定将该基础设施转向通用人工智能研究。与典型的初创公司通过融资和聘请知名研究人员的轨迹不同,DeepSeek 完全由 High-Flyer 自筹资金,很少接受采访,发表的论文本身便足以说明一切。团队成员年轻——主要来自中国顶尖大学——且在公众视野中几乎没有任何存在感。

技术突破

DeepSeek 的早期发布表现稳定但并未引起广泛关注。DeepSeek-V1 和 DeepSeek Coder 模型展示了能力,但并未挑战前沿。这一局面在 2024 年 5 月发布的 DeepSeek-V2 中发生巨变,该模型引入了多头潜在注意力(MLA)——一种在推理过程中压缩键值缓存的技术,显著降低了内存需求和成本。该模型采用了专家混合(MoE)架构,总参数量达 2360 亿,但每个 token 仅激活 210 亿参数,使其既强大又运行成本低廉。DeepSeek 将其 API 定价为 GPT-4 的约 1/30,震惊了整个行业。随后,2024 年 12 月发布的 DeepSeek-V3,团队声称其训练成本约为 550 万美元——如果准确,这一数字比西方实验室在类似模型上的支出低了一个数量级。V3 使用了 FP8 混合精度训练、多 token 预测目标以及无辅助损失的 MoE 层负载均衡,每一项都是训练效率的重要创新。

R1 与 2025 年 1 月的冲击

2025 年 1 月 20 日发布的 DeepSeek-R1 是全球开始关注的时刻。R1 是 OpenAI 的 o1 模型风格的推理模型——它能够通过逐步思考复杂问题后再作答——并在数学、编程和科学基准测试中匹配甚至超越了 o1 的表现。该模型以 MIT 许可证开放权重发布。影响立即且剧烈。1 月 27 日,当市场完全消化这一冲击时,NVIDIA 股票单日下跌近 17%——当时美国历史上最大的单日市值损失——投资者重新计算是否 AI 进步仍需要不断增加的 GPU 开支。"DeepSeek 冲击"成为地缘政治事件:如果一家中国实验室在被切断最新硬件供应的情况下仍能匹配前沿美国模型,这说明出口管制的有效性如何?如果训练成本大幅下降,那么销售昂贵 AI 基础设施的公司商业模式又将如何演变?

他们是如何做到的

DeepSeek 高效背后的技术故事确实引人入胜,不能简化为单一技巧。团队积极采用架构创新(MLA、DeepSeekMoE 与细粒度专家)、训练技术(从预训练一开始就使用 FP8 而非仅推理、多 token 预测、精心调整的学习率调度)以及基础设施工程(自定义内核、激进的流水线并行)。对于 R1,他们采用了一种新颖的强化学习方法:不依赖昂贵的人类偏好数据(如 RLHF),而是在数学和编程任务上使用可验证答案的 Group Relative Policy Optimization(GRPO),让模型自行发现推理链模式。一个小的“冷启动”数据集有所帮助,但核心洞察是,推理可以通过带有真实验证的强化学习产生,而非依赖大量人工标注。他们还展示了“蒸馏”——训练较小模型(15 亿、70 亿、80 亿、140 亿、320 亿、700 亿参数)以模仿 R1 的推理链,产生了一系列效率远超其规模的模型。

地缘政治、审查与不确定性

DeepSeek 无法脱离中美科技竞争的背景来理解。该公司的模型符合中国审查要求——询问天安门广场、台湾独立或习近平,将得到拒绝或中国政府的官方立场。这是任何在中国运营的 AI 公司的法律要求,而非选择,但这也限制了需要无审查输出的用户模型的实用性(尽管开放权重意味着其他人可以微调掉审查)。限制中国获取先进 GPU 的美国出口管制既是 DeepSeek 需要绕过的障碍,也是推动其转向效率创新的悖论性动力。关于 DeepSeek 实际计算资源的疑问仍然存在——一些分析师推测 High-Flyer 可能在出口禁令前囤积了比公开承认的更多 GPU,而 V3 的 550 万美元训练成本数字也因可能排除了大量前期研究和基础设施成本而受到质疑。无论如何,DeepSeek 的成就真实存在,其论文详细且可复现,且已从根本上改变了关于构建前沿 AI 所需条件的讨论。

相关概念

← 所有术语
← DeepL 深度伪造 →
ESC