AWS详述了Random Network Graph(RNG),一个自去年末一直在悄悄部署的数据中心网络拓扑,现已在爱尔兰、德国和西班牙上线。数字:吞吐量提升33%,网络设备减少50%,估计节省数十亿。结构性举措是替换一直是hyperscale默认的fat-tree(Clos)拓扑。Fat-tree将服务器间数据流约束到有限路径,所以即使聚合带宽充足congestion也会出现。RNG通过将一些光纤段以刻意模式放置、另一些随机放置来增加可用路径——这是学术工作(Jellyfish、expander-graph网络)论证了十多年的随机拓扑思想的生产部署。研究论文在arXiv 2604.15261。
两个工程部分使随机拓扑实用,两者都是对构建者有趣的部分。ShuffleBox是一个定制被动设备——不消耗电力——在RNG的随机配置中物理交叉连接光纤电缆;无电源属性重要,因为在数据中心规模,布线层通常要么是手动的(易错)要么是有电源的(另一个failure domain和功耗)。Spraypoint是定制路由协议:路由器向所有相邻路由器"喷洒"流量,然后转发数据包到目的地,这就是你如何利用众多可用路径而不引起任意mesh拓扑通常造成的路由表爆炸。组合——物理层的被动硬件,逻辑层的spray-routing——是将理论上漂亮的随机图变成在AWS规模可操作的东西。
生态系统解读:随机/expander数据中心拓扑多年来一直是研究宠儿,正是因为它们在每美元路径多样性上击败fat-tree,但它们在运营上很难——布线复杂性和路由复杂性是阻碍。AWS用定制硬件加定制协议解决两者,是理论现在在最大规模上production-viable的信号。具体到AI训练,即使AWS没有明说,含义是直接的:all-reduce等集合操作是bandwidth-bound和congestion-sensitive的,所以更多非拥塞路径正是大模型训练fabric想要的——尽管公告没有给出AI训练特定数字,也没有与NVIDIA InfiniBand或Google的Jupiter的head-to-head,这是该领域真正需要的比较。诚实的警告:"节省数十亿"数字是AWS自己的估计,这是AWS内部基础设施(不是你能买的产品,也不是你能构建的开放硬件),33%是聚合吞吐量声明,没有按工作负载分解。
如果你周一早上运行自己的数据中心fabric:arXiv论文(2604.15261)值得为ShuffleBox被动交叉连接和Spraypoint spray-routing设计而读——即使硬件不可移植,思想是可移植的。如果你是在eu-west-1(爱尔兰)或德国/西班牙区域运行训练或大型分布式工作负载的AWS客户:这是你无需更改任何东西就继承的吞吐量和可靠性。结构性新闻是随机图数据中心拓扑从论文跨越到hyperscale生产——关注论文中的设计细节是被其他运营商采用还是仍是AWS护城河。
