AWS ने Random Network Graph (RNG) का विवरण दिया, एक डेटासेंटर नेटवर्क टोपोलॉजी जिसे वह पिछले साल के अंत से चुपचाप तैनात कर रहा है, अब आयरलैंड, जर्मनी, और स्पेन में लाइव। संख्याएँ: 33% throughput सुधार, 50% कम नेटवर्क डिवाइस, अनुमानित अरबों की बचत। संरचनात्मक चाल fat-tree (Clos) टोपोलॉजी को बदलना है जो hyperscale डिफ़ॉल्ट रही है। Fat-tree सर्वरों के बीच डेटा प्रवाह को सीमित पथों तक बाधित करता है, इसलिए congestion तब भी प्रकट होती है जब समग्र bandwidth प्रचुर हो। RNG कुछ फाइबर खंडों को जानबूझकर पैटर्न में और अन्य को रैंडमली रखकर उपलब्ध पथ बढ़ाता है — रैंडम-टोपोलॉजी विचार की एक उत्पादन तैनाती जिसके लिए अकादमिक काम (Jellyfish, expander-graph नेटवर्क) ने एक दशक से अधिक तर्क दिया है। शोध पेपर arXiv 2604.15261 पर है।
दो इंजीनियरिंग टुकड़े रैंडम टोपोलॉजी को व्यावहारिक बनाते हैं, और दोनों बिल्डर्स के लिए दिलचस्प हिस्सा हैं। ShuffleBox एक कस्टम पैसिव डिवाइस है — यह बिजली नहीं खपत करता — जो RNG के रैंडम कॉन्फ़िगरेशन में फाइबर केबल को भौतिक रूप से cross-connect करता है; बिना-बिजली संपत्ति मायने रखती है क्योंकि डेटासेंटर पैमाने पर, केबलिंग परत सामान्यतः या तो मैनुअल (त्रुटि-प्रवण) या संचालित (एक और failure domain और बिजली खपत) होती है। Spraypoint कस्टम राउटिंग प्रोटोकॉल है: राउटर सभी पड़ोसी राउटरों को ट्रैफ़िक "स्प्रे" करते हैं, जो फिर पैकेट को गंतव्य की ओर अग्रेषित करते हैं, यही कैसे आप कई उपलब्ध पथों का दोहन करते हैं बिना उस राउटिंग-टेबल विस्फोट के जो मनमाने mesh टोपोलॉजी सामान्यतः उत्पन्न करते हैं। संयोजन — भौतिक परत के लिए पैसिव हार्डवेयर, तार्किक परत के लिए spray-routing — वह है जो सैद्धांतिक रूप से अच्छे रैंडम ग्राफ को AWS पैमाने पर संचालनीय कुछ में बदलता है।
इकोसिस्टम रीडिंग: रैंडम/expander डेटासेंटर टोपोलॉजी वर्षों से शोध की पसंदीदा रही हैं ठीक इसलिए क्योंकि वे प्रति डॉलर पथ विविधता पर fat-tree को हराती हैं, लेकिन वे परिचालन रूप से कठिन थीं — केबलिंग जटिलता और राउटिंग जटिलता अवरोधक थे। AWS द्वारा दोनों को कस्टम हार्डवेयर प्लस कस्टम प्रोटोकॉल से हल करना संकेत है कि सिद्धांत अब सबसे बड़े पैमाने पर production-viable है। विशेष रूप से AI प्रशिक्षण के लिए, निहितार्थ सीधा है भले ही AWS ने इसे स्पष्ट नहीं किया: all-reduce जैसे सामूहिक संचालन bandwidth-bound और congestion-sensitive हैं, इसलिए अधिक गैर-congesting पथ बिल्कुल वही है जो बड़े-मॉडल प्रशिक्षण fabrics चाहते हैं — हालांकि घोषणा कोई AI-प्रशिक्षण-विशिष्ट संख्या और NVIDIA InfiniBand या Google के Jupiter के against कोई head-to-head नहीं देती, जो वह तुलना है जिसकी क्षेत्र को वास्तव में आवश्यकता है। ईमानदार चेतावनियाँ: "अरबों बचाए" आंकड़ा AWS का अपना अनुमान है, यह AWS-आंतरिक इन्फ्रास्ट्रक्चर है (कोई उत्पाद नहीं जिसे आप खरीद सकें या खुला हार्डवेयर जिसे आप बना सकें), और 33% कार्यभार ब्रेकडाउन के बिना एक समग्र throughput दावा है।
यदि आप सोमवार सुबह अपनी खुद की डेटासेंटर fabric चलाते हैं: arXiv पेपर (2604.15261) ShuffleBox passive-crossconnect और Spraypoint spray-routing डिज़ाइन के लिए पढ़ने योग्य है — विचार portable हैं भले ही हार्डवेयर न हो। यदि आप eu-west-1 (आयरलैंड) या जर्मन/स्पेनिश क्षेत्रों में प्रशिक्षण या बड़े वितरित कार्यभार चलाने वाले AWS ग्राहक हैं: यह throughput और विश्वसनीयता है जो आप कुछ भी बदले बिना विरासत में पाते हैं। संरचनात्मक समाचार यह है कि रैंडम-ग्राफ डेटासेंटर टोपोलॉजी पेपर से hyperscale उत्पादन तक पार हो गई — देखें कि क्या पेपर में डिज़ाइन विशिष्टताएँ अन्य ऑपरेटरों द्वारा अपनाई जाती हैं या AWS moat बनी रहती हैं।
