NVIDIA 的 Nemotron 3 Super 本週登頂 EnterpriseOps-Gym,這是一個新的 1,150 任務 agent 基準,在完全互動式環境中以 512 個可呼叫工具運行模型 —— 擊敗 DeepSeek v3.2 和 Kimi-K2.5,領導開源類別。模型本身於 3 月發布;leaderboard 第一是新聞。但更有趣的故事是是什麼讓這成為可能:這是首個原生以 4 位精度預訓練的前沿規模模型。
Nemotron 3 Super 總參 120B / 啟用 12B,是一個混合 Mamba-Transformer-MoE,具有 100 萬 token 上下文窗口。這裡堆疊了三個架構動作。LatentMoE 在路由到專家然後返回之前,將 token 嵌入投影到壓縮的低秩潛在空間 —— 允許在相同計算成本下諮詢 4× 更多專家。Multi-Token Prediction 使用共享權重頭同時預測幾個未來 token,聲稱結構化生成在 wall-clock 上最高加速 3×。最顯著的是:NVFP4 原生預訓練意味著模型從最早的梯度更新開始就學會在 4 位算術內保持準確 —— 而不是在 FP16/FP32 訓練之後量化。NVIDIA 報告 B200 上的推理加速比 H100 上的 FP8 快 4×。EnterpriseOps-Gym 分數:平均 27.3,擊敗 Kimi-K2.5(第二)和 DeepSeek v3.2(第三)。PinchBench:85.6%。推理吞吐量:在 8k 輸入 / 64k 輸出下比 GPT-OSS-120B 快 2.2×,比 Qwen3.5-122B 快 7.5×。
原生低精度預訓練是真正的新東西。到目前為止,做法一直是:在 BF16 或 FP8 中訓練,然後在部署時事後量化到 INT4 或 NVFP4,一路上付出品質代價。Nemotron 3 Super 原生在 4 位訓練意味著權重分佈已經與部署格式相容 —— 沒有事後體操,沒有為恢復丟失的精度而進行的微調。如果這能泛化,它將改變下一代開放模型的訓練計算經濟,並讓 B200 硬體更接近其峰值 FLOPS 預算運行。4× B200-vs-H100-FP8 數字使這成為世代轉變而非漸進。對於更廣泛的開源景觀,DeepSeek 和 Kimi-K2 自 2025 年末以來設定了「前沿開放」的標桿;NVIDIA 發布一個在 agentic 基準上擊敗兩者的模型 —— 以寬鬆授權、免費託管推理 —— 關閉了一個不明顯會如此快關閉的競爭差距。
Hugging Face 上可用:`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` 加 NVFP4 部署變體,在 NVIDIA Nemotron Open Model License 下。透過 OpenRouter 免費託管推理。值得為 1M 上下文、工具呼叫和推理速度比原始 single-shot 評估分數更重要的 agent 工作負載入手。原生 4 位角度是未來六個月要關注的部分 —— 如果其他實驗室複製,成本-品質曲線為每個人移動。
