DeepMind का Decoupled DiLoCo 4 US क्षेत्रों में 12B Gemma 4 को प्रशिक्षित करता है, 1.2M चिप स्केल पर 88% गुडपुट रखता है

Google DeepMind ने बुधवार को Decoupled DiLoCo प्रकाशित किया, जो इसके DiLoCo कम-संचार वितरित प्रशिक्षण कार्य का विस्तार है, जो प्रशिक्षण रनों को अतुल्यकालिक कंप्यूट द्वीपों में विभाजित करता है। पेपर मिश्रित TPU पीढ़ियों (v6e और v5p) का उपयोग करके चार US क्षेत्रों में 12 बिलियन पैरामीटर Gemma 4 मॉडल के प्रशिक्षण की रिपोर्ट करता है, कसकर सिंक्रनाइज़्ड 64.4% बेसलाइन के मुकाबले बेंचमार्क पर 64.1% औसत सटीकता प्राप्त करता है। संचार में कमी नाटकीय है: 8 डेटासेंटरों में 198 Gbps से 0.84 Gbps तक, 235x गिरावट। लचीलापन दावा और भी मजबूत है। उच्च विफलता दरों वाले 1.2 मिलियन-चिप सिम्युलेटेड वातावरण में, Decoupled DiLoCo ने 88% गुडपुट बनाए रखा जबकि पारंपरिक तुल्यकालिक प्रशिक्षण 27% तक ढह गया।

वास्तुकला DiLoCo की दो-स्तरीय संरचना पर बनती है: प्रत्येक worker पर आंतरिक स्थानीय अनुकूलन कदम, अंतराल पर पैरामीटर डेल्टा का बाहरी सिंक्रनाइज़ेशन। Decoupled DiLoCo तुल्यकालिक बाहरी लूप को अतुल्यकालिक से बदल देता है। स्वतंत्र learners स्थानीय अपडेट की गणना करते हैं और एक केंद्रीय सिंक्रनाइज़र को पैरामीटर टुकड़े धकेलते हैं, जो उन्हें न्यूनतम कोरम नियम, पिछड़ों के लिए एक अनुकूली ग्रेस विंडो, और गतिशील टोकन-भारित विलय का उपयोग करके एकत्र करता है ताकि तेज़ learners प्रत्येक अपडेट चक्र में आनुपातिक रूप से अधिक योगदान दें। "डिकपल्ड" शब्द भार-वहन करने वाला है। विफल या धीमे workers वैश्विक चरण को ब्लॉक नहीं करते; वे ग्रेस विंडो से बाहर हो जाते हैं और ठीक होने पर पुनः शामिल हो जाते हैं। यही कारण है कि गुडपुट वक्र उन विफलताओं के तहत टिका रहता है जो पारंपरिक तुल्यकालिक प्रशिक्षण को पंगु बना देती हैं।

उत्पादन ML टीमों के लिए महत्व दोहरा है। पहला, बैंडविड्थ में कमी बदलती है कि कौन सी प्रशिक्षण टोपोलॉजी आर्थिक रूप से व्यवहार्य हैं। भौगोलिक रूप से वितरित डेटासेंटरों में प्रशिक्षण को ग्रेडिएंट सिंक्रनाइज़ेशन की अंतर-क्षेत्र बैंडविड्थ लागत द्वारा गेट किया गया है। 235x बैंडविड्थ कमी मानक इंटरकनेक्ट वाले किसी भी क्लाउड टेनेंट की पहुंच में मल्टी-रीजन प्रशिक्षण रखती है। दूसरा, विफलता सहनशीलता उन पैमानों पर मायने रखती है जिन पर Google, Meta और अन्य हाइपरस्केलर अब संचालन करते हैं। 100K से अधिक चिप्स पर प्रशिक्षण का मतलब है कि हार्डवेयर विफलताएँ अपवाद के बजाय नियमित हैं। तुल्यकालिक प्रशिक्षण प्रत्येक विफलता को पुनरारंभ के रूप में मानता है; Decoupled DiLoCo विफलताओं को पिछड़ों के रूप में मानता है और उन learners को रखता है जो अभी भी चल रहे हैं। 1.2M सिम्युलेटेड चिप स्केल पर, 88% और 27% गुडपुट के बीच का अंतर बहु-माह रन पर अरबों डॉलर की कंप्यूट दक्षता का प्रतिनिधित्व करता है।

हाइपरस्केलर पैमाने के नीचे काम करने वाले builders के लिए, शोध अभी भी उपयोगी है। कोरम-प्लस-ग्रेस-विंडो पैटर्न प्रशिक्षण से परे सामान्यीकृत होता है। यदि आप कोई ऐसा वितरित सिस्टम बना रहे हैं जिसे अविश्वसनीय workers से योगदान एकत्र करने की आवश्यकता है, तो अनुकूली ग्रेस विंडो प्लस न्यूनतम कोरम प्लस भारित विलय एक ज्ञात-अच्छा डिज़ाइन है। ओपन-सोर्स DiLoCo वंशावली Prime Intellect के OpenDiLoCo फ्रेमवर्क के माध्यम से जारी है, जिसे विकेंद्रीकृत समुदाय प्रशिक्षण प्रयास 2024 से विस्तारित कर रहे हैं। उम्मीद है कि Decoupled DiLoCo के विशिष्ट नवाचार उन खुले कार्यान्वयन में हफ्तों के भीतर उतरेंगे। Google के बाहर के मॉडल डेवलपर्स के लिए टेकअवे यह है कि अधिकांश वितरित प्रशिक्षण व्यंजनों में पकी हुई धारणाएँ, कड़ा सिंक्रनाइज़ेशन, एकल-डेटासेंटर परिनियोजन, समान हार्डवेयर, अब एक कार्यशील 12B पैरामीटर अनुसंधान-स्केल प्रदर्शन द्वारा स्पष्ट रूप से चुनौती दी गई हैं। उत्पादन फ्रेमवर्क पकड़ लेंगे, और जो टीमें जल्दी समझेंगी कि क्यों, वे लचीलेपन का फायदा उठाने के लिए बेहतर स्थिति में होंगी।

DeepMind का Decoupled DiLoCo 4 US क्षेत्रों में 12B Gemma 4 को प्रशिक्षित करता है, 1.2M चिप स्केल पर 88% गुडपुट रखता है

और समाचार