英伟达的 Nemotron 3 Super 本周登顶 EnterpriseOps-Gym,这是一个新的 1,150 任务 agent 基准,在完全交互式环境中以 512 个可调用工具运行模型 —— 击败 DeepSeek v3.2 和 Kimi-K2.5,领导开源类别。模型本身于 3 月发布;leaderboard 头名是新闻。但更有趣的故事是是什么让这成为可能:这是首个原生以 4 位精度预训练的前沿规模模型。
Nemotron 3 Super 总参 120B / 激活 12B,是一个混合 Mamba-Transformer-MoE,具有 100 万 token 上下文窗口。这里堆叠了三个架构动作。LatentMoE 在路由到专家然后返回之前,将 token 嵌入投影到压缩的低秩潜在空间 —— 允许在相同计算成本下咨询 4× 更多专家。Multi-Token Prediction 使用共享权重头同时预测几个未来 token,声称结构化生成在 wall-clock 上最高加速 3×。最显著的是:NVFP4 原生预训练意味着模型从最早的梯度更新开始就学会在 4 位算术内保持准确 —— 而不是在 FP16/FP32 训练之后量化。英伟达报告 B200 上的推理加速比 H100 上的 FP8 快 4×。EnterpriseOps-Gym 分数:平均 27.3,击败 Kimi-K2.5(第二)和 DeepSeek v3.2(第三)。PinchBench:85.6%。推理吞吐量:在 8k 输入 / 64k 输出下比 GPT-OSS-120B 快 2.2×,比 Qwen3.5-122B 快 7.5×。
原生低精度预训练是真正的新东西。到目前为止,做法一直是:在 BF16 或 FP8 中训练,然后在部署时事后量化到 INT4 或 NVFP4,一路上付出质量代价。Nemotron 3 Super 原生在 4 位训练意味着权重分布已经与部署格式兼容 —— 没有事后体操,没有为恢复丢失的精度而进行的微调。如果这能泛化,它将改变下一代开放模型的训练计算经济,并让 B200 硬件更接近其峰值 FLOPS 预算运行。4× B200-vs-H100-FP8 数字使这成为代际转变而非渐进。对于更广泛的开源景观,DeepSeek 和 Kimi-K2 自 2025 年末以来设定了"前沿开放"的标杆;英伟达发布一个在 agentic 基准上击败两者的模型 —— 以宽松许可证、免费托管推理 —— 关闭了一个不明显会如此快关闭的竞争差距。
Hugging Face 上可用:`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` 加 NVFP4 部署变体,在 NVIDIA Nemotron Open Model License 下。通过 OpenRouter 免费托管推理。值得为 1M 上下文、工具调用和推理速度比原始 single-shot 评估分数更重要的 agent 工作负载入手。原生 4 位角度是未来六个月要关注的部分 —— 如果其他实验室复制,成本-质量曲线为每个人移动。
