DeepSeek 发布了 DSpark,这是一套投机解码框架,能让其 DeepSeek-V4 Flash 和 Pro 模型生成文本更快。它以增强版检查点的形式发布,也就是说,是同一个底层模型附加上一个小型的额外解码模块,而不是一个具备新能力的新模型。重点并不是一套更聪明的系统,而是一套更便宜、更快的系统。
投机解码值得理解,因为它是 AI 经济学中最低调却最实用的杠杆之一。通常情况下,大模型一次只产出一个 token,每一步都要等上一步完成,这很慢。有了投机解码,一个小型快速的草稿模型会提前猜出若干个 token,大模型则一次性核对所有这些猜测。当猜对时(对于普通文本,它们往往是对的),你得到的就是大模型本会产出的相同输出,只不过缓慢的串行步骤少得多。结果是质量完全一致而速度更高。
DSpark 的具体贡献在于它如何做出这些猜测。它结合了两种已有的方法:一个仿照名为 DFlash 的方法风格的重型并行头,与一个工作方式更接近 Eagle 系列、使用轻量级 Markov 步骤的小型串行头。这种融合提高了接受率,也就是草稿模型猜出的 token 中有更多能通过大模型的核对,而这正是真正决定你能获得多少加速的那个数字。按 DeepSeek 自己的测试,DSpark 同时胜过 Eagle3 和 DFlash,将被接受的 token 长度提升约 16% 到 31%,并视任务不同把吞吐量提升 51% 到高达 400%,同时延迟更低。
更具影响力的一步,是 DeepSeek 在发布框架的同时所做的事。它开源了 DeepSpec,这是一套用于训练和评估投机解码所依赖的小型草稿模型的完整代码库,而且关键在于,它并不局限于 DeepSeek 自家的模型。DeepSpec 的设计也能用于其他开放模型,包括 Google 的 Gemma 和 Alibaba 的 Qwen。这就把一项私有的加速变成了一件共享的工具:任何运行这些开放模型的人都可以训练一个草稿模型并获得类似的收益,而不必坐等每家实验室发布自己的专有版本。
诚实的提醒是针对性能宣称的那些老生常谈。这些数字出自 DeepSeek 自己,尚未经过独立验证;而且投机解码的收益会随工作负载大幅波动,所以那个抢眼的 400% 是友好任务下的最佳情况,而非任何人都应预期能普遍达到的数字。但贯穿其中的脉络比任何单一数字都更重要。推理,也就是模型一旦存在后实际运行它的成本,正是已部署 AI 中大部分资金的去向,而像这样源源不断的技术正持续把这一成本往下压。把工具包开源,并让它能在其他实验室的模型上运行,会把好处扩散得比 DeepSeek 自家的财务报表更广。光鲜的发布抢走了头条,但正是这样的工作,悄然决定了 AI 到底能变得多么可负担。
