AWS RNG: topologia grafo aleatório, +33% throughput, 50% menos dispositivos de rede

A AWS detalhou Random Network Graph (RNG), uma topologia de rede datacenter que vem implantando silenciosamente desde o fim do ano passado, agora live na Irlanda, Alemanha, e Espanha. Os números: +33% de throughput, 50% menos dispositivos de rede, bilhões em economias estimadas. O movimento estrutural é substituir a topologia fat-tree (Clos) que tem sido o default hyperscale. Fat-tree restringe o fluxo de dados entre servidores a caminhos limitados, então a congestão aparece mesmo quando a largura de banda agregada é abundante. RNG aumenta os caminhos disponíveis colocando alguns segmentos de fibra em um padrão deliberado e outros aleatoriamente — uma implantação em produção da ideia de topologia aleatória que o trabalho acadêmico (Jellyfish, redes expander-graph) argumenta há mais de uma década. O paper de pesquisa está em arXiv 2604.15261.

Duas peças de engenharia tornam a topologia aleatória prática, e ambas são a parte interessante para construtores. ShuffleBox é um dispositivo passivo custom — não consome eletricidade — que cross-conecta fisicamente os cabos de fibra na configuração aleatória do RNG; a propriedade sem-energia importa porque em escala datacenter, a camada de cabeamento é normalmente ou manual (propensa a erros) ou alimentada (outro failure domain e consumo de energia). Spraypoint é o protocolo de routing custom: os roteadores "borrifam" tráfego para todos os roteadores vizinhos, que então encaminham pacotes em direção ao destino, que é como você explora os muitos caminhos disponíveis sem a explosão de tabela de routing que topologias mesh arbitrárias normalmente causam. A combinação — hardware passivo para a camada física, spray-routing para a camada lógica — é o que transforma um grafo aleatório teoricamente-bonito em algo operável em escala AWS.

A leitura de ecossistema: topologias datacenter aleatórias/expander têm sido uma queridinha da pesquisa por anos precisamente porque batem o fat-tree em diversidade de caminhos por dólar, mas eram operacionalmente difíceis — a complexidade de cabeamento e a complexidade de routing eram os bloqueadores. A AWS resolvendo ambas com hardware custom mais um protocolo custom é o sinal de que a teoria é agora production-viable na maior escala. Para treinamento AI especificamente, a implicação é direta mesmo que a AWS não tenha soletrado: operações coletivas como all-reduce são bandwidth-bound e congestion-sensitive, então mais caminhos não-congestionantes é exatamente o que fabrics de treinamento de modelos grandes querem — embora o anúncio não dê números específicos de treinamento AI nem head-to-head contra NVIDIA InfiniBand ou Jupiter da Google, que é a comparação que o campo realmente precisa. As ressalvas honestas: o número de "bilhões economizados" é a estimativa da AWS, isto é infra AWS-interna (não um produto que você pode comprar nem hardware aberto que você pode construir), e o 33% é uma afirmação de throughput agregado sem o detalhamento por carga.

Se você roda sua própria fabric datacenter segunda de manhã: o paper arXiv (2604.15261) vale a leitura pelos designs ShuffleBox passive-crossconnect e Spraypoint spray-routing — as ideias são portáteis mesmo que o hardware não seja. Se você é cliente AWS rodando treinamento ou grandes cargas distribuídas em eu-west-1 (Irlanda) ou as regiões alemã/espanhola: isto é throughput e confiabilidade que você herda sem mudar nada. A notícia estrutural é que a topologia datacenter grafo-aleatório cruzou de paper para produção hyperscale — observe se os específicos de design no paper são adotados por outros operadores ou ficam como moat da AWS.

AWS RNG: topologia grafo aleatório, +33% throughput, 50% menos dispositivos de rede

Mais notícias