DeepSeek 發布了 DSpark,這是一套讓其 DeepSeek-V4 Flash 與 Pro 模型生成文字更快的推測式解碼框架。它以強化版檢查點的形式推出,也就是說,是同一個底層模型外加一個小型額外解碼模組,而不是一個帶有新能力的全新模型。重點不在於更聰明的系統,而在於一個更便宜、更快的系統。
推測式解碼值得了解,因為它是 AI 經濟學中最安靜卻最實用的槓桿之一。通常一個大模型一次只產生一個 token,每一步都要等上一步,這很慢。有了推測式解碼,一個小型快速的草稿模型會預先猜出好幾個 token,大模型再一次檢查所有這些猜測。當猜測正確時,而對於一般文字它們往往是正確的,你會得到大模型本來會產生的相同輸出,但所經過的緩慢循序步驟卻少得多。結果是品質相同,速度更高。
DSpark 的具體貢獻在於它如何做出那些猜測。它結合了兩種既有做法:一個重型平行頭,採用一種名為 DFlash 的方法的風格,再加上一個小型循序頭,其運作方式更像 Eagle 系列,使用一個輕量的 Markov 步驟。這種混搭提高了接受率,意思是草稿模型猜出的 token 有更多通過大模型的檢查,而這正是實際決定你能獲得多少加速的數字。根據 DeepSeek 自家的測試,DSpark 同時勝過 Eagle3 與 DFlash,把被接受的 token 長度提升大約 16% 到 31%,並依任務不同把吞吐量提升從 51% 到高達 400%,且延遲更低。
更具影響力的舉動是 DeepSeek 在這套框架之外所做的事。它開源了 DeepSpec,這是一套用於訓練與評估推測式解碼所依賴的小型草稿模型的完整程式碼庫,而且關鍵在於,它並不局限於 DeepSeek 自家的模型。DeepSpec 的設計能在其他開放模型上運作,包括 Google 的 Gemma 與 Alibaba 的 Qwen。這把一項私有的加速變成了一個共享工具:任何運行那些開放模型的人都可以訓練一個草稿模型並取得類似的收益,而不必等待每一家實驗室推出自己的專有版本。
誠實的提醒,正是效能宣稱常見的那些。這些數字出自 DeepSeek 自家,尚未經過獨立驗證,而推測式解碼的收益會隨工作負載大幅擺盪,所以標題上的 400% 是對友善任務而言的最佳情況,而不是任何人應該全面期待的數字。但貫穿其中的主線比任何單一數字都更重要。推論,也就是模型存在後實際運行它的成本,是部署型 AI 中大部分金錢的去處,而像這樣源源不絕的技術正持續把那個成本往下壓。把工具包開源,並讓它能跨其他實驗室的模型運作,把好處擴散得比 DeepSeek 自家的財務報表更廣。光鮮亮麗的發布搶下頭條,但真正悄悄決定 AI 究竟變得多麼負擔得起的,正是像這樣的工作。
