NVIDIA 透過 OCP 開放 MRC 多路徑 RDMA — OpenAI、微軟、Oracle 在用

NVIDIA 今天透過 Open Compute Project 把 Multipath Reliable Connection(MRC)協議作為開放規範發布,在 Spectrum-X Ethernet 硬體上生產運行之後。MRC 是一種新的 RDMA 傳輸,讓單一連接把流量分布到多個網路路徑 — 改善大規模 AI 訓練 fabric 的吞吐、負載均衡和可用性。結構性新聞:NVIDIA 讓協議開放而不是保持專有,意味著非 NVIDIA fabric 廠商可以實現相容矽晶片和交換機。OpenAI、微軟(Fairwater 資料中心)和 Oracle(OCI Abilene)被列為生產 user,OpenAI 特別說 MRC「讓我們避免了大部分典型的網路相關減速」在訓練規模上。無新硬體 SKU — 運行在現有 ConnectX SuperNIC 和 Spectrum-X 交換機上。

機制是對運行大型訓練的 builder 重要的。Ethernet 上的標準 RDMA(RoCEv2)把單一連接放在一條網路路徑上;如果路徑壅塞或失敗,連接 stall 直到 timeout 驅動的重傳趕上。在涉及數千個 GPU 全部同時通訊的集合操作的 gigascale 訓練規模上,單路徑 RDMA 反覆遭遇壅塞,基於 timeout 的恢復太慢 — 每個事件你損失幾分鐘,乘以 100,000-GPU fabric 中網路打嗝的頻率。MRC 把單一 RDMA 連接並行分布到多個路徑,硬體加速微秒級故障切換,動態避開壅塞路徑,智慧重傳而不回退到 TCP 風格的 timeout。OpenAI 的證言映射到一個已知的訓練經濟學條目:多千 GPU 規模上的每一分鐘網路 stall 價值數百美元浪費;MRC 是讓那一分鐘變成毫秒的協議。

生態讀法與本週前兩篇基礎設施 piece 配對。Astera Labs Scorpio 是為非 NVIDIA 訓練棧建構的開放標準記憶體語義 fabric switch(UALink-對齊)。Google TPU 第 8 代是垂直整合的替代品(訓練矽 + 推理矽 + Boardfly 拓撲,全部一起設計)。NVIDIA 的 MRC 坐在中間:NVIDIA 硬體是獲得矽級加速多路徑性能所必需的,但協議本身現在是開放的,其他廠商可以實現。戰略讀法是 NVIDIA 承認 fabric 層的封閉協議正在減慢採納 — 超大規模客戶即使在 GPU 層 committed 到 NVIDIA 也想要可選性。開放規範協議 + 僅 Spectrum-X 加速是 NVIDIA 用 NVLink 跑過的同一個 playbook(開放規範,最初僅 NVIDIA 晶片) — 現在 fabric 層有競爭壓力做同樣的事。對 builder,實際含義是 gigascale 訓練 fabric 正在收斂到多路徑 RDMA 作為標準 primitive,不論哪個矽廠商實際運行交換機。fabric 層相容性故事剛剛改善。

實際動作:如果你在多千 GPU 規模上維運 AI 訓練基礎設施,MRC 支援應該在你今年任何 fabric 採購的路線圖評估標準中。OCP 規範意味著你可以在非 NVIDIA 廠商發貨時評估相容矽晶片。如果你是較小的訓練 shop(<1000 GPU),單路徑 RDMA 仍然夠用 — 多路徑複雜性直到網路路徑故障實際上以足夠頻繁的頻率打擊你的集合操作以至於重要時才回本。對建構 AI 計算容量的 neocloud 和超大規模商,MRC-相容矽晶片現在是一個採購問題,不只是 NVIDIA Spectrum-X 問題。OpenAI/微軟/Oracle 部署名稱暗示協議在當前最大規模的生產環境中已經強化 — 這相對於一個 early-stage 開放規範有意義地降低了技術風險。看點:哪個非 NVIDIA fabric 廠商先實現 MRC,以及矽級加速在 Astera 級交換機上是否可實現還是需要 NVIDIA 級硬體整合。

NVIDIA 透過 OCP 開放 MRC 多路徑 RDMA — OpenAI、微軟、Oracle 在用

更多新聞