AWS RNG: topología grafo aleatorio, +33% throughput, 50% menos dispositivos de red

AWS detalló Random Network Graph (RNG), una topología de red datacenter que ha estado desplegando silenciosamente desde fines del año pasado, ahora live en Irlanda, Alemania, y España. Los números: +33% de throughput, 50% menos dispositivos de red, miles de millones en ahorros estimados. El movimiento estructural es reemplazar la topología fat-tree (Clos) que ha sido el default hyperscale. Fat-tree constriñe el flujo de datos entre servidores a caminos limitados, así que la congestión aparece incluso cuando el ancho de banda agregado es abundante. RNG aumenta los caminos disponibles colocando algunos segmentos de fibra en un patrón deliberado y otros aleatoriamente — un despliegue en producción de la idea de topología aleatoria que el trabajo académico (Jellyfish, redes expander-graph) ha argumentado por más de una década. El paper de investigación está en arXiv 2604.15261.

Dos piezas de ingeniería hacen práctica la topología aleatoria, y ambas son la parte interesante para constructores. ShuffleBox es un dispositivo pasivo custom — no consume electricidad — que cross-conecta físicamente los cables de fibra en la configuración aleatoria de RNG; la propiedad sin-energía importa porque a escala datacenter, la capa de cableado es normalmente o manual (propensa a errores) o alimentada (otro failure domain y consumo de energía). Spraypoint es el protocolo de routing custom: los routers "rocían" tráfico a todos los routers vecinos, que luego reenvían paquetes hacia el destino, que es como explotas los muchos caminos disponibles sin la explosión de tabla de routing que las topologías mesh arbitrarias normalmente causan. La combinación — hardware pasivo para la capa física, spray-routing para la capa lógica — es lo que convierte un grafo aleatorio teóricamente-lindo en algo operable a escala AWS.

La lectura de ecosistema: las topologías datacenter aleatorias/expander han sido una favorita de la investigación por años precisamente porque vencen al fat-tree en diversidad de caminos por dólar, pero eran operacionalmente difíciles — la complejidad de cableado y la complejidad de routing eran los bloqueadores. AWS resolviendo ambas con hardware custom más un protocolo custom es la señal de que la teoría es ahora production-viable a la mayor escala. Para entrenamiento AI específicamente, la implicación es directa aunque AWS no la deletreó: las operaciones colectivas como all-reduce son bandwidth-bound y congestion-sensitive, así que más caminos no-congestionantes es exactamente lo que los fabrics de entrenamiento de modelos grandes quieren — aunque el anuncio no da números específicos de entrenamiento AI ni head-to-head contra NVIDIA InfiniBand o Jupiter de Google, que es la comparación que el campo realmente necesita. Las advertencias honestas: la cifra de "miles de millones ahorrados" es la estimación de AWS, esto es infra AWS-interna (no un producto que puedas comprar ni hardware abierto que puedas construir), y el 33% es una afirmación de throughput agregado sin el desglose por carga.

Si corres tu propia fabric datacenter el lunes por la mañana: el paper arXiv (2604.15261) vale la lectura por los diseños ShuffleBox passive-crossconnect y Spraypoint spray-routing — las ideas son portables aunque el hardware no lo sea. Si eres cliente AWS corriendo entrenamiento o grandes cargas distribuidas en eu-west-1 (Irlanda) o las regiones alemana/española: esto es throughput y confiabilidad que heredas sin cambiar nada. La noticia estructural es que la topología datacenter grafo-aleatorio cruzó de paper a producción hyperscale — vigila si los específicos de diseño en el paper son adoptados por otros operadores o se quedan como moat de AWS.

AWS RNG: topología grafo aleatorio, +33% throughput, 50% menos dispositivos de red

Más noticias