NVIDIA 發布 Nemotron-Labs-Diffusion(NLD):開源權重的 LLM 系列,提供 3B、8B、14B 三個尺寸,一個 checkpoint 不改架構,就能跑三種解碼模式。AR 模式:經典左到右、causal attention、每 forward 一個token。Diffusion 模式:在每一個區塊內用雙向注意力對多個 token 同時去噪、平行出。Self-speculation 模式:讓 diffusion 這條路徑先 draft k 個 token,AR 這條路徑在第二遍 verify、接受最長匹配前綴。提供 base、instruct、vision-language 三個 variant。NVIDIA Nemotron Open Model 授權。HuggingFace collection 已上線。8B 模型在 self-speculation + LoRA 模式下,跑出 5.99 tokens / forward,在 HumanEval、MBPP、GSM8K、Math500、MMLU 等十項指令評測上,平均準確率 62.81% —— 對比 AR baseline 的 63.61% 和 Qwen3-8B 的 62.75%。GB200 上對 Qwen3-8B 是 4 倍吞吐;batch size = 1 時,比 Qwen3-8B-Eagle3 快 2.4 倍。權重從 Ministral3 base 初始化;先用 1 兆 tokens 跑 AR-only,再用 3 千億 tokens 跑 joint 目標 ℒ = ℒ_AR + α·ℒ_diff,α = 0.3,256 張 H100 上訓練。

架構層面的賭注是「一個 checkpoint 同時跑三種模式」。如果沒有 joint training,你就得 ship 兩個模型(一個 AR、一個 diffusion),推論時再做路由,帶來營運層面的額外開銷。在 α = 0.3 的 joint training 下,NVIDIA 說兩個目標的損失是「一起漲一起跌」的 —— 一套權重同時服務兩種模式,而 self-speculation 路徑把兩條都用上。Acceptance length 決定吞吐:LoRA 加持下每 draft step 接受 6.82 個 token,Eagle3 是 2.75,這個差距就是 5.99x tokens/forward 的來源。LoRA 微調讓 acceptance 提升 14.4% 到 32.5%,具體看規模。只跑 diffusion 模式時,準確率 63.18%、吞吐 2.57x TPF —— 不走 AR verifier 也具競爭力 —— 但真正大的 speedup 在 self-speculation + LoRA。把 training 目標和 decoding 模式解耦,是這次新的東西:之前的 diffusion LM(Plaid、score-based 系列)沒法 clean 地切回 AR。NLD 可以。

對 builder 為什麼重要。Speculative decoding 自從 2023 年以來一直是一種已知的推論優化,但典型做法都是用一個獨立的 draft 模型(小 Llama 給大 Llama 起草等等)—— 你得訓練並維護兩個模型。NVIDIA 這一招把 drafting 摺疊回同一個 checkpoint。在準確率打平的前提下 GB200 上 4 倍吞吐,就是推論成本的實打實下降:同品質的模型,要麼 wall-clock 降到 25%,要麼吞吐拉到 4 倍,看你最佳化哪一頭。要在 Claude / GPT / Gemini 這一檔的品質下、用四分之一的推論算力跑 —— 這就是幾年前就被許諾、現在終於看到對路的 「架構 vs vendor 棧」的取捨。開源權重在 HuggingFace 上意味著你可以自己部署,不用再交 API 那一層毛利 —— 對推論成本敏感的工作負載,是實打實的事。從 Ministral3 初始化這一點也值得注意:NVIDIA 明面上是在 Mistral 這一脈上面接著做(我們今早剛覆蓋了 Mistral 收購 Emmi 的故事;NLD-3B/8B/14B 是從 Ministral3 起手的,意味著這套權重的起點是 Mistral、終點是 NVIDIA)。模型生態正在 weight-initialization 這一層跨廠混合。

週一上手:如果你有推論成本受限的生產工作負載,目前跑在 Qwen3-8B、Llama-3.x-8B、Mistral 7B 這一類中型 LM 上,把 NLD-8B 當 drop-in 候選認真評估一下。吞吐 claim 終究是 claim,得拿你自己的 prompt 和硬體跑一遍才算。具體測試:(1) 在你的 eval 集上,跑 AR / diffusion / self-spec+LoRA 三個模式的準確率差;(2) batch=1 時的 tail latency,跟你現在的 setup 對比;(3) 在你那套硬體組合(H100、H200、GB200、MI300、Grace+Hopper 的 ARM host)上的 tokens-per-dollar。Self-speculation + LoRA 是生產成本的目標點 —— 但「acceptance 隨規模波動 14.4% 到 32.5%」意味著你 prompt 分布很 matter,收益不均勻。如果你在做 3B 這檔的 edge 部署,從 Ministral3 出來的開源權重給你一個不同於 base Mistral / Phi / Gemma 的起點。更大盤的趨勢:NVIDIA 用開源權重 ship 一個 diffusion-mode LM,是 research 方向的訊號彈。Diffusion LM 這一支研究一直慢熱;這一下改變了部署層面的算帳。預計未來兩到三個季度,會有更多 lab 跟出 diffusion-mode 的 release,跟上這條成本下降的故事線。