AWS RNG : topologie graphe aléatoire, +33% throughput, 50% moins d'appareils réseau

AWS a détaillé Random Network Graph (RNG), une topologie de réseau datacenter qu'il déploie tranquillement depuis fin l'an passé, maintenant live en Irlande, Allemagne, pis Espagne. Les chiffres : +33% de throughput, 50% moins d'appareils réseau, des milliards en économies estimées. Le move structurel, c'est remplacer la topologie fat-tree (Clos) qui était le défaut hyperscale. Le fat-tree contraint le flux de données entre serveurs à des chemins limités, donc la congestion apparaît même quand la bande passante agrégée est abondante. RNG augmente les chemins disponibles en posant certains segments de fibre dans un pattern délibéré pis d'autres aléatoirement — un déploiement en production de l'idée de topologie aléatoire que le travail académique (Jellyfish, réseaux expander-graph) argumente depuis plus d'une décennie. Le papier de recherche est à arXiv 2604.15261.

Deux pièces d'ingénierie rendent la topologie aléatoire pratique, pis les deux sont la partie intéressante pour les bâtisseurs. ShuffleBox est un appareil passif custom — il consomme pas d'électricité — qui cross-connecte physiquement les câbles fibre dans la config aléatoire de RNG ; la propriété sans-courant compte parce qu'à l'échelle datacenter, la couche de câblage est normalement soit manuelle (sujette aux erreurs) soit alimentée (un autre failure domain pis un draw de courant). Spraypoint est le protocole de routing custom : les routeurs « sprayent » le trafic à tous les routeurs voisins, qui forwardent ensuite les paquets vers la destination, c'est comme ça que tu exploites les nombreux chemins disponibles sans l'explosion de table de routing que les topologies mesh arbitraires causent normalement. La combinaison — hardware passif pour la couche physique, spray-routing pour la couche logique — c'est ce qui transforme un graphe aléatoire théoriquement-beau en quelque chose d'opérable à l'échelle AWS.

La lecture écosystème : les topologies datacenter aléatoires/expander sont une chouchoute de la recherche depuis des années précisément parce qu'elles battent le fat-tree sur la diversité de chemins par dollar, mais elles étaient operationnellement dures — la complexité de câblage pis la complexité de routing étaient les bloqueurs. AWS qui résout les deux avec du hardware custom plus un protocole custom, c'est le signal que la théorie est maintenant production-viable à la plus grande échelle. Pour l'entraînement AI spécifiquement, l'implication est directe même si AWS l'a pas épelée : les opérations collectives comme all-reduce sont bandwidth-bound pis congestion-sensitive, donc plus de chemins non-congestionnants c'est exactement ce que les fabrics d'entraînement de gros modèles veulent — quoique l'annonce donne aucun chiffre spécifique à l'entraînement AI pis aucun head-to-head contre NVIDIA InfiniBand ou Jupiter de Google, ce qui est la comparaison dont le champ a vraiment besoin. Les caveats honnêtes : le chiffre des « milliards économisés » est l'estimation d'AWS, c'est de l'infra AWS-interne (pas un produit que tu peux acheter ni du hardware ouvert que tu peux bâtir), pis le 33% est une claim de throughput agrégé sans le breakdown par charge.

Si tu roules ta propre fabric datacenter lundi matin : le papier arXiv (2604.15261) vaut la lecture pour les designs ShuffleBox passive-crossconnect pis Spraypoint spray-routing — les idées sont portables même si le hardware l'est pas. Si t'es un client AWS qui roule de l'entraînement ou de grosses charges distribuées en eu-west-1 (Irlande) ou les régions allemande/espagnole : c'est du throughput pis de la fiabilité que t'hérites sans rien changer. La nouvelle structurelle, c'est que la topologie datacenter graphe-aléatoire a traversé du papier à la production hyperscale — watch si les spécifics de design dans le papier se font adopter par d'autres opérateurs ou restent un moat AWS.

AWS RNG : topologie graphe aléatoire, +33% throughput, 50% moins d'appareils réseau

Plus de nouvelles