NVIDIA abre RDMA multipath MRC via OCP — usado por OpenAI, Microsoft, Oracle

A NVIDIA lançou hoje o protocolo Multipath Reliable Connection (MRC) como especificação aberta via Open Compute Project, depois de rodá-lo em produção em hardware Spectrum-X Ethernet. MRC é um novo transporte RDMA que permite a uma única conexão distribuir tráfego por múltiplos caminhos de rede — melhorando throughput, load balancing e availability para fabrics de treino AI em larga escala. A notícia estrutural: a NVIDIA tornou o protocolo aberto em vez de mantê-lo proprietário, o que significa que vendors de fabric não-NVIDIA podem implementar silício e switches compatíveis. OpenAI, Microsoft (datacenter Fairwater) e Oracle (OCI Abilene) são citados como users em produção, com a OpenAI especificamente apontando que MRC «nos permitiu evitar muito dos slowdowns típicos relacionados à rede» em escala de treino. Sem novo SKU de hardware — roda em ConnectX SuperNICs e switches Spectrum-X existentes.

O mecanismo é o que importa para builders rodando treino grande. RDMA padrão sobre Ethernet (RoCEv2) coloca uma única conexão por um caminho de rede; se o caminho congestiona ou falha, a conexão trava até a retransmissão timeout-driven alcançar. Em escala gigascale de treino onde operações coletivas envolvem milhares de GPUs todas comunicando simultaneamente, RDMA single-path bate congestão repetidamente, e a recovery timeout-based é lenta demais — você perde minutos por incidente, multiplicado pela frequência de soluços de rede através de um fabric de 100.000 GPUs. MRC distribui uma única conexão RDMA por múltiplos paths em paralelo, hardware-acelera o failover em microssegundos, evita dinamicamente paths congestionados, e retransmite inteligentemente sem cair em timeouts estilo TCP. O testimonial da OpenAI mapeia para uma linha de economia de treino conhecida: cada minuto de stall de rede em escala multi-milhares de GPUs vale centenas de dólares desperdiçados; MRC é o protocolo que faz esse minuto virar milissegundos.

A leitura ecossistema combina com os dois pieces de infra anteriores desta semana. Astera Labs Scorpio é o smart fabric switch memory-semantic aberto construído para stacks de treino não-NVIDIA (alinhado a UALink). O TPU 8a gen do Google é a alternativa verticalmente integrada (silício de treino + silício de inferência + topologia Boardfly, todos projetados juntos). O MRC da NVIDIA fica no meio: hardware NVIDIA é necessário para obter o desempenho multipath silicon-acelerado, mas o protocolo em si agora é aberto e outros vendors podem implementá-lo. A leitura estratégica é que a NVIDIA concede que protocolos fechados na camada fabric estão desacelerando a adoção — customers hyperscaler querem opcionalidade mesmo quando estão committed à NVIDIA na camada GPU. Protocolo open-spec + aceleração Spectrum-X-only é o mesmo playbook que a NVIDIA rodou com NVLink (spec aberta, chips NVIDIA-only inicialmente) — e agora há pressão competitiva para fazer o mesmo na camada fabric. Para builders, a implicação prática é que fabrics de treino gigascale estão convergindo em multipath RDMA como primitivo padrão, independentemente de qual vendor de silício roda os switches reais. A história de compatibilidade fabric-layer acabou de melhorar.

Movimento prático: se você opera infra de treino AI em escala multi-milhares de GPUs, suporte a MRC deveria estar nos seus critérios de roadmap para qualquer compra de fabric este ano. A spec OCP significa que você pode avaliar silício compatível de vendors não-NVIDIA conforme shipa. Se você é uma shop de treino menor (sub-1000 GPUs), RDMA single-path ainda é adequado — a complexidade multipath não se paga até que falhas de network-path realmente atinjam suas operações coletivas com frequência suficiente para importar. Para neoclouds e hyperscalers construindo capacidade de compute AI, silício MRC-compatível agora é uma pergunta de procurement, não só uma pergunta de NVIDIA Spectrum-X. Os nomes de deploys OpenAI/Microsoft/Oracle implicam que o protocolo foi hardened em ambientes de produção na maior escala atual — isso desrisca a tecnologia significativamente vs uma open spec em early-stage. A vigília: quais vendors de fabric não-NVIDIA implementam MRC primeiro, e se aceleração silicon-level é alcançável em switches classe-Astera ou requer integração hardware NVIDIA-tier.

NVIDIA abre RDMA multipath MRC via OCP — usado por OpenAI, Microsoft, Oracle

Mais notícias