NVIDIA 今天通过 Open Compute Project 把 Multipath Reliable Connection(MRC)协议作为开放规范发布,在 Spectrum-X Ethernet 硬件上生产运行之后。MRC 是一种新的 RDMA 传输,让单一连接把流量分布到多个网络路径 — 改善大规模 AI 训练 fabric 的吞吐、负载均衡和可用性。结构性新闻:NVIDIA 让协议开放而不是保持专有,意味着非 NVIDIA fabric 厂商可以实现兼容硅片和交换机。OpenAI、微软(Fairwater 数据中心)和 Oracle(OCI Abilene)被列为生产 user,OpenAI 特别说 MRC「让我们避免了大部分典型的网络相关减速」在训练规模上。无新硬件 SKU — 运行在现有 ConnectX SuperNIC 和 Spectrum-X 交换机上。
机制是对运行大型训练的 builder 重要的。Ethernet 上的标准 RDMA(RoCEv2)把单一连接放在一条网络路径上;如果路径拥塞或失败,连接 stall 直到 timeout 驱动的重传赶上。在涉及数千个 GPU 全部同时通信的集合操作的 gigascale 训练规模上,单路径 RDMA 反复遭遇拥塞,基于 timeout 的恢复太慢 — 每个事件你损失几分钟,乘以 100,000-GPU fabric 中网络打嗝的频率。MRC 把单一 RDMA 连接并行分布到多个路径,硬件加速微秒级故障切换,动态避开拥塞路径,智能重传而不回退到 TCP 风格的 timeout。OpenAI 的证言映射到一个已知的训练经济学条目:多千 GPU 规模上的每一分钟网络 stall 价值数百美元浪费;MRC 是让那一分钟变成毫秒的协议。
生态读法与本周前两篇基础设施 piece 配对。Astera Labs Scorpio 是为非 NVIDIA 训练栈构建的开放标准内存语义 fabric switch(UALink-对齐)。Google TPU 第 8 代是垂直集成的替代品(训练硅 + 推理硅 + Boardfly 拓扑,全部一起设计)。NVIDIA 的 MRC 坐在中间:NVIDIA 硬件是获得硅级加速多路径性能所必需的,但协议本身现在是开放的,其他厂商可以实现。战略读法是 NVIDIA 承认 fabric 层的封闭协议正在减慢采纳 — 超大规模客户即使在 GPU 层 committed 到 NVIDIA 也想要可选性。开放规范协议 + 仅 Spectrum-X 加速是 NVIDIA 用 NVLink 跑过的同一个 playbook(开放规范,最初仅 NVIDIA 芯片) — 现在 fabric 层有竞争压力做同样的事。对 builder,实际含义是 gigascale 训练 fabric 正在收敛到多路径 RDMA 作为标准 primitive,不论哪个硅厂商实际运行交换机。fabric 层兼容性故事刚刚改善。
实际动作:如果你在多千 GPU 规模上运维 AI 训练基础设施,MRC 支持应该在你今年任何 fabric 采购的路线图评估标准中。OCP 规范意味着你可以在非 NVIDIA 厂商发货时评估兼容硅片。如果你是较小的训练 shop(<1000 GPU),单路径 RDMA 仍然够用 — 多路径复杂性直到网络路径故障实际上以足够频繁的频率打击你的集合操作以至于重要时才回本。对构建 AI 计算容量的 neocloud 和超大规模商,MRC-兼容硅片现在是一个采购问题,不只是 NVIDIA Spectrum-X 问题。OpenAI/微软/Oracle 部署名称暗示协议在当前最大规模的生产环境中已经强化 — 这相对于一个 early-stage 开放规范有意义地降低了技术风险。看点:哪个非 NVIDIA fabric 厂商先实现 MRC,以及硅级加速在 Astera 级交换机上是否可实现还是需要 NVIDIA 级硬件集成。
