NVIDIA ouvre le multipath RDMA MRC via OCP — utilisé par OpenAI, Microsoft, Oracle

NVIDIA a release aujourd'hui le protocole Multipath Reliable Connection (MRC) comme spécification ouverte via l'Open Compute Project, après l'avoir fait tourner en prod sur le hardware Spectrum-X Ethernet. MRC est un nouveau transport RDMA qui laisse une seule connexion distribuer le trafic à travers plusieurs chemins réseau — améliorant throughput, load balancing et availability pour les fabrics d'entraînement AI à grande échelle. La news structurelle : NVIDIA rend le protocole ouvert plutôt que de le garder propriétaire, ce qui veut dire que les vendors fabric non-NVIDIA peuvent implémenter du silicium et des switches compatibles. OpenAI, Microsoft (datacenter Fairwater) et Oracle (OCI Abilene) sont cités comme users en production, OpenAI appelant spécifiquement que MRC « nous a permis d'éviter beaucoup des slowdowns typiques liés au réseau » à l'échelle d'entraînement. Pas de nouveau SKU hardware — tourne sur les ConnectX SuperNICs et switches Spectrum-X existants.

Le mécanisme est ce qui compte pour les builders qui font tourner du gros entraînement. Le RDMA standard sur Ethernet (RoCEv2) met une seule connexion à travers un seul chemin réseau ; si le chemin congeste ou échoue, la connexion stall jusqu'à ce que la retransmission timeout-driven rattrape. À l'échelle gigascale d'entraînement où les opérations collectives impliquent des milliers de GPUs tous communiquant simultanément, le RDMA single-path hit la congestion répétitivement, et la recovery timeout-based est trop lente — tu perds des minutes par incident, multiplié par la fréquence des hoquets réseau à travers un fabric de 100 000 GPUs. MRC distribue une seule connexion RDMA à travers plusieurs paths en parallèle, hardware-accelere le failover en microsecondes, évite dynamiquement les paths congestionnés, et retransmet intelligemment sans tomber dans les timeouts style TCP. Le testimonial OpenAI map à une ligne d'économie d'entraînement connue : chaque minute de stall réseau à l'échelle multi-milliers de GPUs vaut des centaines de dollars gaspillés ; MRC est le protocole qui fait que cette minute devient millisecondes.

La lecture ecosystem pair avec les deux pieces infra plus tôt cette semaine. Astera Labs Scorpio est le smart fabric switch memory-semantic open construit pour les stacks d'entraînement non-NVIDIA (UALink-aligné). Le TPU 8e gén de Google est l'alternative vertically-integrated (silicium d'entraînement + silicium d'inférence + topologie Boardfly, tous designés ensemble). Le MRC de NVIDIA sit au milieu : le hardware NVIDIA est requis pour avoir la performance multipath silicon-accelerated, mais le protocole lui-même est maintenant ouvert et les autres vendors peuvent l'implémenter. La lecture stratégique, c'est que NVIDIA concède que les protocoles fermés à la couche fabric ralentissent l'adoption — les customers hyperscaler veulent de l'optionalité même quand ils sont committed à NVIDIA à la couche GPU. Protocole open-spec + accélération Spectrum-X-only, c'est le même playbook que NVIDIA a run avec NVLink (spec ouverte, chips NVIDIA-only initialement) — et maintenant il y a une pression compétitive pour faire la même chose à la couche fabric. Pour les builders, l'implication pratique, c'est que les fabrics d'entraînement gigascale convergent vers le multipath RDMA comme primitive standard, peu importe quel vendor silicium fait tourner les switches en réalité. La story de compatibilité fabric-layer vient de s'améliorer.

Move pratique : si tu opères de l'infra d'entraînement AI à l'échelle multi-milliers de GPUs, le support MRC devrait être dans tes critères de roadmap pour n'importe quel achat fabric cette année. La spec OCP veut dire que tu peux évaluer du silicium compatible de vendors non-NVIDIA à mesure que ça ship. Si tu es une plus petite training shop (sub-1000 GPUs), le RDMA single-path est encore adéquat — la complexité multipath ne se rentabilise pas tant que les network-path failures ne hit pas tes opérations collectives assez fréquemment pour compter. Pour les neoclouds et hyperscalers qui construisent de la capacité compute AI, le silicium MRC-compatible est maintenant une question de procurement, pas juste une question de NVIDIA Spectrum-X. Les noms de déploiements OpenAI/Microsoft/Oracle impliquent que le protocole a été hardened dans des environnements de prod à la plus grande échelle actuelle — ça derisk la technologie meaningfully vs une early-stage open spec. Le watch : quels vendors fabric non-NVIDIA implémentent MRC en premier, et si l'accélération silicon-level est achievable sur des switches classe-Astera ou requiert une intégration hardware NVIDIA-tier.

NVIDIA ouvre le multipath RDMA MRC via OCP — utilisé par OpenAI, Microsoft, Oracle

Plus de nouvelles