NVIDIA 本週發布了一個 300 億參數的檢查點,可以在不重訓練的情況下切分成 23B 或 12B 變體。較小的模型不會像蒸餾後備模型那樣降級 —— 它們在更大模型內部協同訓練,透過部署時的重要性排序提取。對於任何運行大規模推理負載的人來說,「更小更便宜的模型」和「更大更智慧的模型」是不同檔案這一假設剛剛鬆動。

基礎是 Nemotron Nano v3,NVIDIA 的 Mamba-Transformer-MoE 混合架構(總參 30B,啟用 3.6B)。Star Elastic 的機制是寬度彈性訓練:元件 —— 嵌入通道、注意力頭、Mamba SSM 頭、MoE 專家數、FFN 中間維度 —— 按貢獻排序並打包,使切分時保留最高排名的連續子集。一個可學習的 Gumbel-Softmax 路由器與模型聯合訓練,根據預算選擇啟用什麼。NVIDIA 測試了深度壓縮(丟棄層)只恢復基線的 95.2%,而寬度壓縮達到 98.1%,因此優先採用寬度方案。Elastic-23B 在 AIME-2025 上得分 85.63,Qwen3-30B-A3B 為 80.00。訓練成本:比單獨預訓練三個變體少 360 倍 token,比順序蒸餾壓縮少 7 倍。嵌套量化在 FP8 和 NVFP4 上保持切分能力。

Llama 系列的部署模式一直是「發布 7B、13B、70B 家族 —— 分別預訓練、分別蒸餾、分別託管」。MatFormer(Salesforce)和 Megatron Elastic 探索過嵌套方法,但都是固定重要性排序和單軸剪枝。這裡的新意:在多個軸上同時聯合訓練可學習路由器 —— SSM 維度、嵌入通道、專家數、FFN 寬度 —— 加上 REAP(路由器加權專家啟用剪枝),按閘 × 輸出幅度而非僅路由頻率排序 MoE 專家。對於在獨立端點之間路由快速便宜和慢速深度模型呼叫的代理堆疊,這些是不同模型的架構假設鬆動了。一個檢查點,一個延遲刻度盤。

Hugging Face 上可用:`nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B`,BF16、FP8 和 NVFP4 變體。值得為 H100/H200 上當前因成本/延遲權衡而切換模型的推理工作負載入手。商業部署前請檢查模型卡上的授權條款 —— Nemotron 變體以混合授權發布,發布說明沒有明確的開源聲明。