NVIDIA abre el multipath RDMA MRC vía OCP — usado por OpenAI, Microsoft, Oracle

NVIDIA liberó hoy el protocolo Multipath Reliable Connection (MRC) como especificación abierta vía Open Compute Project, tras correrlo en producción en hardware Spectrum-X Ethernet. MRC es un nuevo transporte RDMA que deja a una sola conexión distribuir tráfico a través de múltiples paths de red — mejorando throughput, load balancing y availability para fabrics de entrenamiento AI a gran escala. La noticia estructural: NVIDIA hace el protocolo abierto en lugar de mantenerlo propietario, lo que significa que vendors de fabric no-NVIDIA pueden implementar silicio y switches compatibles. OpenAI, Microsoft (datacenter Fairwater) y Oracle (OCI Abilene) son citados como users en producción, con OpenAI específicamente diciendo que MRC «nos permitió evitar mucho de los slowdowns típicos relacionados a la red» a escala de entrenamiento. Sin nuevo SKU de hardware — corre en ConnectX SuperNICs y switches Spectrum-X existentes.

El mecanismo es lo que importa a builders corriendo entrenamiento grande. RDMA estándar sobre Ethernet (RoCEv2) pone una sola conexión a través de un path de red; si el path se congestiona o falla, la conexión se cuelga hasta que la retransmisión timeout-driven alcance. A escala gigascale de entrenamiento donde operaciones colectivas involucran miles de GPUs todas comunicando simultáneamente, RDMA single-path pega congestión repetidamente, y la recovery timeout-based es muy lenta — perdés minutos por incidente, multiplicado por la frecuencia de hipos de red a través de un fabric de 100.000 GPUs. MRC distribuye una sola conexión RDMA a través de múltiples paths en paralelo, hardware-acelera el failover en microsegundos, evita dinámicamente paths congestionados, y retransmite inteligentemente sin caer en timeouts estilo TCP. El testimonial de OpenAI mapea a una línea conocida de economía de entrenamiento: cada minuto de stall de red a escala multi-miles de GPUs vale cientos de dólares desperdiciados; MRC es el protocolo que hace que ese minuto sea milisegundos.

La lectura ecosystem se empareja con los dos pieces de infra anteriores esta semana. Astera Labs Scorpio es el smart fabric switch memory-semantic abierto construido para stacks de entrenamiento no-NVIDIA (alineado con UALink). El TPU 8a gen de Google es la alternativa verticalmente integrada (silicio de entrenamiento + silicio de inferencia + topología Boardfly, todos diseñados juntos). El MRC de NVIDIA se sienta en el medio: hardware NVIDIA es requerido para obtener el rendimiento multipath silicon-acelerado, pero el protocolo mismo ahora es abierto y otros vendors pueden implementarlo. La lectura estratégica es que NVIDIA concede que protocolos cerrados a la capa fabric están desacelerando la adopción — los customers hyperscaler quieren opcionalidad incluso cuando están committed a NVIDIA a la capa GPU. Protocolo open-spec + aceleración Spectrum-X-only es el mismo playbook que NVIDIA corrió con NVLink (spec abierta, chips NVIDIA-only inicialmente) — y ahora hay presión competitiva para hacer lo mismo a la capa fabric. Para builders, la implicación práctica es que los fabrics de entrenamiento gigascale están convergiendo en multipath RDMA como primitivo estándar, sin importar qué vendor de silicio corra los switches reales. La historia de compatibilidad fabric-layer recién mejoró.

Movida práctica: si operás infra de entrenamiento AI a escala multi-miles de GPUs, el soporte MRC debería estar en tus criterios de roadmap para cualquier compra de fabric este año. La spec OCP significa que podés evaluar silicio compatible de vendors no-NVIDIA a medida que shipea. Si sos una shop de entrenamiento más chica (sub-1000 GPUs), RDMA single-path todavía es adecuado — la complejidad multipath no se paga hasta que las network-path failures realmente peguen tus operaciones colectivas con suficiente frecuencia para importar. Para neoclouds e hyperscalers construyendo capacidad de compute AI, silicio MRC-compatible ahora es una pregunta de procurement, no solo una pregunta de NVIDIA Spectrum-X. Los nombres de deploys OpenAI/Microsoft/Oracle implican que el protocolo fue hardened en entornos de producción a la mayor escala actual — eso derisquea la tecnología significativamente vs una open spec en early-stage. La vigilia: qué vendors de fabric no-NVIDIA implementan MRC primero, y si la aceleración silicon-level es lograble en switches clase-Astera o requiere integración hardware NVIDIA-tier.

NVIDIA abre el multipath RDMA MRC vía OCP — usado por OpenAI, Microsoft, Oracle

Más noticias