英伟达本周发布了一个 300 亿参数的检查点,可以在不重训练的情况下切分成 23B 或 12B 变体。较小的模型不会像蒸馏后备模型那样降级 —— 它们在更大模型内部协同训练,通过部署时的重要性排序提取。对于任何运行大规模推理负载的人来说,"更小更便宜的模型"和"更大更智能的模型"是不同文件这一假设刚刚松动。

基础是 Nemotron Nano v3,英伟达的 Mamba-Transformer-MoE 混合架构(总参 30B,激活 3.6B)。Star Elastic 的机制是宽度弹性训练:组件 —— 嵌入通道、注意力头、Mamba SSM 头、MoE 专家数、FFN 中间维度 —— 按贡献排序并打包,使切分时保留最高排名的连续子集。一个可学习的 Gumbel-Softmax 路由器与模型联合训练,根据预算选择激活什么。英伟达测试了深度压缩(丢弃层)只恢复基线的 95.2%,而宽度压缩达到 98.1%,因此优先采用宽度方案。Elastic-23B 在 AIME-2025 上得分 85.63,Qwen3-30B-A3B 为 80.00。训练成本:比单独预训练三个变体少 360 倍 token,比顺序蒸馏压缩少 7 倍。嵌套量化在 FP8 和 NVFP4 上保持切分能力。

Llama 系列的部署模式一直是"发布 7B、13B、70B 家族 —— 分别预训练、分别蒸馏、分别托管"。MatFormer(Salesforce)和 Megatron Elastic 探索过嵌套方法,但都是固定重要性排序和单轴剪枝。这里的新意:在多个轴上同时联合训练可学习路由器 —— SSM 维度、嵌入通道、专家数、FFN 宽度 —— 加上 REAP(路由器加权专家激活剪枝),按门 × 输出幅度而非仅路由频率排序 MoE 专家。对于在独立端点之间路由快速便宜和慢速深度模型调用的智能体堆栈,这些是不同模型的架构假设松动了。一个检查点,一个延迟刻度盘。

Hugging Face 上可用:`nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B`,BF16、FP8 和 NVFP4 变体。值得为 H100/H200 上当前因成本/延迟权衡而切换模型的推理工作负载入手。商业部署前请检查模型卡上的许可证条款 —— Nemotron 变体以混合许可证发布,发布说明没有明确的开源声明。