Fabric MRC da OpenAI: 131K GPUs, sem roteamento L3, spraying em 8 planos, Ethernet lossy, Zubnet AI Notícias

Um consórcio da OpenAI, AMD, Broadcom, Intel, Microsoft e NVIDIA lançou o MRC — Multipath Reliable Connection — via Open Compute Project em 5 de maio, com o paper de pesquisa acompanhante (Araujo et al., arXiv:2605.04333) detalhando seu deploy nos maiores supercomputadores GB200 da OpenAI, incluindo o site Stargate com Oracle Cloud Infrastructure em Abilene, Texas, e Fairwater da Microsoft. O MRC é a camada de rede por trás dos training runs dos últimos modelos frontier ChatGPT e Codex, e a leitura aprofundada de Gokul Chandra Purnachandra Reddy na Towards Data Science traz à tona a observação carregada que a cobertura de imprensa perdeu: o MRC efetivamente elimina toda a camada de controle Layer 3 do fabric do data center. Nada de OSPF, nada de BGP, nada de IS-IS, nada de FIB; os switches mantêm zero estado de forwarding dinâmico. Até onde Reddy sabe, essa é a eliminação mais agressiva de roteamento dinâmico em qualquer fabric de treino de IA em produção publicamente documentado até hoje.

As cinco decisões de design contraintuitivas, cada uma individualmente familiar mas radicais em combinação: (1) Dividir o NIC de 800 Gb/s em oito links de 100 Gb/s, cada um no seu próprio switch — cria oito planos de rede independentes. Topologia de dois tiers suporta 131.072 GPUs a largura de banda de bissecção completa versus ~64K GPUs em três tiers convencionalmente. O pior caso de rota é 3 hops vs 5-7 hops. Usa 2/3 da óptica e 3/5 dos switches de um deploy de 3 tiers. (2) Sem protocolos de roteamento dinâmico — só rotas estáticas, zero estado de forwarding, plano de controle simples o suficiente para que um time pequeno gerencie múltiplos supercomputadores simultaneamente. (3) Packet spraying: cada transferência é sprayed por centenas de rotas aleatórias nos oito planos; quando um link falha, o NIC retira aquele valor de entropia e redistribui tráfego para os sete planos restantes em microssegundos. (4) Ethernet lossy por design — aceitar perda de pacote intencionalmente em vez de construir cascatas de backpressure, com retransmissão seletiva lidando com a pequena taxa de perda. (5) ECN reaproveitado como sinal de load-balancing em vez de sinal de controle de congestão. NICs de 800 Gb/s enviam de três fornecedores de silício diferentes.

O enquadramento do problema é o que torna os tradeoffs de engenharia defensáveis. Pré-treino síncrono a 131.072 GPUs roda em lock-step — todo passo de treino depende da transferência mais lenta. O enquadramento citado do paper: "à medida que as computações escalam, a comunicação fica cada vez mais dominada por outliers". A ~US$ 300.000/hora em tarifas cloud para 100K GPUs classe H100, um stall de tail-latency de 10ms por passo através de milhares de passos compõe em dinheiro real. A anedota do incidente de produção é a parte para pesar: um transceiver óptico num switch T0 sofreu um glitch e flapou seus quatro links em sucessão rápida, afetando três nós de treino ativos; numa rede convencional isso teria crasheado o training job, e com MRC o treino continuou. A matemática de resiliência em falhas de link: NIC de 800 Gb/s single-plane perde 3% de capacidade num link ruim; 100 Gb/s multi-plano perde 0,4% e continua operando nos sete planos restantes. A arquitetura compra largura de banda previsível ao custo de complexidade de monitoramento de rede (8× os links para rastrear) e um modelo mental diferente para times de ops que cresceram em fabrics L3 convencionais.

Para builders e times de infra: esse é o ponto de dado mais concreto até hoje sobre o que se tornou a arquitetura de fabric de treino de lab frontier, e o lançamento OCP significa que você pode estudar o design do protocolo em vez de reverse-engineer a partir de análise de keywords de job listings. Três implicações concretas. Primeiro, se você compra capacidade de uma cloud adjacente a labs frontier, espere que fabrics multi-plano estilo MRC sejam baseline até Q3 — suas suposições de tuning de workload sobre RoCE single-path precisam ser revisitadas. Segundo, cada vendor OSS de networking que enviou otimizações OSPF/BGP especificamente para fabrics de IA agora tem um mercado encolhendo; o consórcio OpenAI é o maior deploy único de eliminação de roteamento dinâmico já documentado, e onde eles vão, os clientes NVIDIA/Microsoft/Oracle seguem. Terceiro, o paper vale a pena ler de ponta a ponta — a leitura aprofundada da TDS pelo Reddy é um guia útil, mas a referência arXiv (2605.04333) é a fonte canônica. O enquadramento "cinco decisões contraintuitivas" é editorial; a surpresa real é que cada uma passou no teste de estresse de produção simultaneamente num deploy de 131K GPUs, e o consórcio OpenAI escolheu publicar como em vez de manter a engenharia proprietária.

Fabric MRC da OpenAI: 131K GPUs, sem roteamento L3, spraying em 8 planos, Ethernet lossy

Mais notícias