Fabric MRC de OpenAI: 131K GPUs, sin routing L3, spraying 8-planos, Ethernet lossy, Zubnet AI Noticias

Un consorcio de OpenAI, AMD, Broadcom, Intel, Microsoft y NVIDIA liberó MRC — Multipath Reliable Connection — a través del Open Compute Project el 5 de mayo, con el paper de investigación acompañante (Araujo et al., arXiv:2605.04333) detallando su despliegue en las supercomputadoras GB200 más grandes de OpenAI, incluyendo el sitio Stargate con Oracle Cloud Infrastructure en Abilene, Texas, y Fairwater de Microsoft. MRC es la capa de red detrás de los training runs para los últimos modelos frontera ChatGPT y Codex, y la lectura profunda de Gokul Chandra Purnachandra Reddy en Towards Data Science saca a la luz la observación cargante que la cobertura de prensa pasó por alto: MRC efectivamente elimina toda la capa de control Layer 3 del fabric del data center. Nada de OSPF, nada de BGP, nada de IS-IS, nada de FIB; los switches mantienen cero estado de forwarding dinámico. Hasta donde Reddy sabe, esta es la eliminación más agresiva de routing dinámico en cualquier fabric de entrenamiento IA en producción públicamente documentado a la fecha.

Las cinco decisiones contraintuitivas de diseño, cada una individualmente familiar pero radicales en combinación: (1) Dividir el NIC de 800 Gb/s en ocho enlaces de 100 Gb/s, cada uno en su propio switch — crea ocho planos de red independientes. Topología de dos tiers soporta 131.072 GPUs a ancho de banda de bisección completo versus ~64K GPUs a tres tiers convencionalmente. El peor caso de ruta es 3 hops vs 5-7 hops. Usa 2/3 de la óptica y 3/5 de los switches de un despliegue de 3 tiers. (2) Sin protocolos de routing dinámico — solo rutas estáticas, cero estado de forwarding, plano de control lo suficientemente simple como para que un equipo pequeño gestione múltiples supercomputadoras simultáneamente. (3) Packet spraying: cada transferencia es spreyada a través de cientos de rutas aleatorias en los ocho planos; cuando un enlace falla, el NIC retira ese valor de entropía y redistribuye el tráfico a los siete planos restantes en microsegundos. (4) Ethernet lossy por diseño — aceptar pérdida de paquetes intencionalmente en lugar de construir cascadas de backpressure, con retransmisión selectiva manejando la pequeña tasa de pérdida. (5) ECN re-propósito como señal de load-balancing en lugar de señal de control de congestión. NICs de 800 Gb/s envían de tres vendors de silicio diferentes.

El encuadre del problema es lo que hace defendibles los tradeoffs de ingeniería. El pre-entrenamiento sincrónico a 131.072 GPUs corre en lock-step — cada paso de entrenamiento depende de la transferencia más lenta. El encuadre citado del paper: "a medida que las computaciones escalan, la comunicación se vuelve cada vez más dominada por outliers". A ~$300.000/hora a tarifas cloud para 100K GPUs clase H100, un stall de tail-latency de 10ms por paso a través de miles de pasos se compone en dinero real. La anécdota del incidente de producción es la parte para ponderar: un transceiver óptico en un switch T0 sufrió un glitch y flappeó sus cuatro enlaces en sucesión rápida, afectando tres nodos de entrenamiento activos; en una red convencional esto habría crasheado el training job, y con MRC el entrenamiento continuó. La matemática de resiliencia en fallas de enlace: NIC de 800 Gb/s single-plane pierde 3% de capacidad en un enlace malo; 100 Gb/s multi-plano pierde 0,4% y continúa operando en los siete planos restantes. La arquitectura compra ancho de banda predecible al costo de complejidad de monitoreo de red (8× los enlaces a rastrear) y un modelo mental diferente para equipos de ops que se formaron en fabrics L3 convencionales.

Para builders y equipos de infra: este es el punto de datos más concreto a la fecha sobre qué se ha vuelto la arquitectura de fabric de entrenamiento de lab frontera, y la liberación OCP significa que puedes estudiar el diseño del protocolo en lugar de hacer reverse-engineering desde análisis de keywords de job listings. Tres implicaciones concretas. Primero, si compras capacidad de un cloud adyacente a labs frontera, espera que los fabrics multi-plano estilo MRC sean la baseline para Q3 — tus suposiciones de tuning de workload sobre RoCE single-path necesitan ser revisitadas. Segundo, cada vendor OSS de networking que envió optimizaciones OSPF/BGP específicamente para fabrics IA ahora tiene un mercado que se está achicando; el consorcio OpenAI es el despliegue individual más grande de eliminación de routing dinámico jamás documentado, y a donde ellos van, los clientes NVIDIA/Microsoft/Oracle siguen. Tercero, el paper vale la pena leerlo de punta a punta — la lectura profunda de Reddy en TDS es una guía útil, pero la referencia arXiv (2605.04333) es la fuente canónica. El encuadre "cinco decisiones contraintuitivas" es editorial; la sorpresa real es que cada una pasó el test de estrés de producción simultáneamente en un despliegue de 131K GPUs, y el consorcio OpenAI eligió publicar cómo en lugar de mantener la ingeniería propietaria.

Fabric MRC de OpenAI: 131K GPUs, sin routing L3, spraying 8-planos, Ethernet lossy

Más noticias