NVIDIA ने OCP के through MRC multipath RDMA खोला — OpenAI, Microsoft, Oracle use कर रहे

NVIDIA ने आज Multipath Reliable Connection (MRC) protocol को Open Compute Project के through open specification के तौर पर release किया, Spectrum-X Ethernet hardware पर production में चलाने के बाद। MRC एक नया RDMA transport है जो single connection को multiple network paths में traffic distribute करने देता है — large-scale AI training fabrics के लिए throughput, load balancing और availability सुधारते हुए। structural news: NVIDIA proprietary रखने के बजाय protocol को open कर रहा है, मतलब non-NVIDIA fabric vendors compatible silicon और switches implement कर सकते हैं। OpenAI, Microsoft (Fairwater datacenter) और Oracle (OCI Abilene) को production users के तौर पर cite किया, OpenAI specifically कह रहा है कि MRC ने «हमें training scale पर typical network-related slowdowns में से बहुत से बचने दिया»। कोई नया hardware SKU नहीं — existing ConnectX SuperNICs और Spectrum-X switches पर चलता है।

mechanism वो है जो बड़ी training चलाने वाले builders के लिए मायने रखता है। Ethernet पर standard RDMA (RoCEv2) single connection को एक network path से डालता है; अगर path congest या fail होता है, connection stall होता है जब तक timeout-driven retransmission catch up न कर ले। gigascale training पर जहाँ collective operations में हज़ारों GPUs एक साथ communicate करते हैं, single-path RDMA congestion से बार-बार टकराता है, और timeout-based recovery बहुत slow है — हर incident पर minutes खोते हो, 100,000-GPU fabric में network hiccups की frequency से multiplied। MRC single RDMA connection को multiple paths में parallel में distribute करता है, microseconds में hardware-accelerate failover करता है, dynamically congested paths avoid करता है, और TCP-style timeouts में fall back हुए बिना intelligently retransmit करता है। OpenAI testimonial known training-economics line item पर map होती है: multi-thousand-GPU scale पर हर minute का network stall सैकड़ों डॉलर waste = MRC वो protocol है जो उस minute को milliseconds बनाता है।

ecosystem reading इस हफ़्ते के पहले के दो infra pieces के साथ pair होती है। Astera Labs Scorpio non-NVIDIA training stacks के लिए open memory-semantic fabric switch है (UALink-aligned)। Google TPU 8वीं gen vertically-integrated alternative है (training silicon + inference silicon + Boardfly topology, सब एक साथ designed)। NVIDIA का MRC बीच में बैठता है: silicon-accelerated multipath performance पाने के लिए NVIDIA hardware ज़रूरी है, पर protocol खुद अब open है और दूसरे vendors उसे implement कर सकते हैं। strategic reading ये है कि NVIDIA concede कर रहा है कि fabric layer पर closed protocols adoption को slow कर रहे हैं — hyperscaler customers GPU layer पर NVIDIA को committed होने के बावजूद optionality चाहते हैं। open-spec protocol + Spectrum-X-only acceleration वही playbook है जो NVIDIA ने NVLink के साथ चलाया (open spec, initially NVIDIA-only chips) — और अब fabric layer पर वही करने का competitive pressure है। builders के लिए practical implication ये है कि gigascale training fabrics standard primitive के तौर पर multipath RDMA पर converge हो रही हैं, चाहे actual switches कोई भी silicon vendor चलाए। fabric-layer compatibility story अभी बेहतर हुई।

practical move: अगर आप multi-thousand-GPU scale पर AI training infrastructure operate करते हो, MRC support इस साल किसी भी fabric purchase के लिए आपके roadmap evaluation criteria में होना चाहिए। OCP spec का मतलब है आप non-NVIDIA vendors के compatible silicon को ship होते समय evaluate कर सकते हो। अगर आप छोटे training shop हो (sub-1000 GPUs), single-path RDMA अभी भी adequate है — multipath complexity तब तक pay off नहीं करती जब तक network-path failures actually आपके collective operations को मायने रखने लायक frequently hit न करें। AI compute capacity बनाने वाले neoclouds और hyperscalers के लिए, MRC-compatible silicon अब procurement question है, सिर्फ़ NVIDIA Spectrum-X question नहीं। OpenAI/Microsoft/Oracle deployment names imply करते हैं कि protocol current largest scale पर production environments में hardened हुआ — ये technology को early-stage open spec के मुक़ाबले meaningfully derisk करता है। watch: कौन-से non-NVIDIA fabric vendors पहले MRC implement करते हैं, और क्या silicon-level acceleration Astera-class switches पर achievable है या NVIDIA-tier hardware integration चाहिए।

NVIDIA ने OCP के through MRC multipath RDMA खोला — OpenAI, Microsoft, Oracle use कर रहे

और समाचार