NVIDIA 发布 Nemotron-Labs-Diffusion(NLD):开源权重的 LLM 系列,提供 3B、8B、14B 三个尺寸,一个 checkpoint 不改架构,就能跑三种解码模式。AR 模式:经典左到右、causal attention、每 forward 一个token。Diffusion 模式:在每一个块内用双向注意力对多个 token 同时去噪、并行出。Self-speculation 模式:让 diffusion 这条路径先 draft k 个 token,AR 这条路径在第二遍 verify、接受最长匹配前缀。提供 base、instruct、vision-language 三个 variant。NVIDIA Nemotron Open Model 许可证。HuggingFace collection 已上线。8B 模型在 self-speculation + LoRA 模式下,跑出 5.99 tokens / forward,在 HumanEval、MBPP、GSM8K、Math500、MMLU 等十项指令评测上,平均准确率 62.81% —— 对比 AR baseline 的 63.61% 和 Qwen3-8B 的 62.75%。GB200 上对 Qwen3-8B 是 4 倍吞吐;batch size = 1 时,比 Qwen3-8B-Eagle3 快 2.4 倍。权重从 Ministral3 base 初始化;先用 1 万亿 tokens 跑 AR-only,再用 3 千亿 tokens 跑 joint 目标 ℒ = ℒ_AR + α·ℒ_diff,α = 0.3,256 张 H100 上训练。
架构层面的赌注是「一个 checkpoint 同时跑三种模式」。如果没有 joint training,你就得 ship 两个模型(一个 AR、一个 diffusion),推理时再做路由,带来运营层面的额外开销。在 α = 0.3 的 joint training 下,NVIDIA 说两个目标的损失是「一起涨一起跌」的 —— 一套权重同时服务两种模式,而 self-speculation 路径把两条都用上。Acceptance length 决定吞吐:LoRA 加持下每 draft step 接受 6.82 个 token,Eagle3 是 2.75,这个差距就是 5.99x tokens/forward 的来源。LoRA 微调让 acceptance 提升 14.4% 到 32.5%,具体看规模。只跑 diffusion 模式时,准确率 63.18%、吞吐 2.57x TPF —— 不走 AR verifier 也具竞争力 —— 但真正大的 speedup 在 self-speculation + LoRA。把 training 目标和 decoding 模式解耦,是这次新的东西:之前的 diffusion LM(Plaid、score-based 系列)没法 clean 地切回 AR。NLD 可以。
对 builder 为什么重要。Speculative decoding 自从 2023 年以来一直是一种已知的推理优化,但典型做法都是用一个独立的 draft 模型(小 Llama 给大 Llama 起草等等)—— 你得训练并维护两个模型。NVIDIA 这一招把 drafting 折叠回同一个 checkpoint。在准确率打平的前提下 GB200 上 4 倍吞吐,就是推理成本的实打实下降:同质量的模型,要么 wall-clock 降到 25%,要么吞吐拉到 4 倍,看你优化哪一头。要在 Claude / GPT / Gemini 这一档的质量下、用四分之一的推理算力跑 —— 这就是几年前就被许诺、现在终于看到对路的 「架构 vs vendor 栈」的取舍。开源权重在 HuggingFace 上意味着你可以自己部署,不用再交 API 那一层毛利 —— 对推理成本敏感的工作负载,是实打实的事。从 Ministral3 初始化这一点也值得注意:NVIDIA 明面上是在 Mistral 这一脉上面接着做(我们今早刚覆盖了 Mistral 收购 Emmi 的故事;NLD-3B/8B/14B 是从 Ministral3 起手的,意味着这套权重的起点是 Mistral、终点是 NVIDIA)。模型生态正在 weight-initialization 这一层跨厂混合。
周一上手:如果你有推理成本受限的生产工作负载,目前跑在 Qwen3-8B、Llama-3.x-8B、Mistral 7B 这一类中型 LM 上,把 NLD-8B 当 drop-in 候选认真评估一下。吞吐 claim 终究是 claim,得拿你自己的 prompt 和硬件跑一遍才算。具体测试:(1) 在你的 eval 集上,跑 AR / diffusion / self-spec+LoRA 三个模式的准确率差;(2) batch=1 时的 tail latency,跟你现在的 setup 对比;(3) 在你那套硬件组合(H100、H200、GB200、MI300、Grace+Hopper 的 ARM host)上的 tokens-per-dollar。Self-speculation + LoRA 是生产成本的目标点 —— 但「acceptance 随规模波动 14.4% 到 32.5%」意味着你 prompt 分布很 matter,收益不均匀。如果你在做 3B 这档的 edge 部署,从 Ministral3 出来的开源权重给你一个不同于 base Mistral / Phi / Gemma 的起点。更大盘的趋势:NVIDIA 用开源权重 ship 一个 diffusion-mode LM,是 research 方向的信号弹。Diffusion LM 这一支研究一直慢热;这一下改变了部署层面的算账。预计未来两到三个季度,会有更多 lab 跟出 diffusion-mode 的 release,跟上这条成本下降的故事线。
