Parcae लूप्ड मॉडल्स को वास्तव में काम करता बनाता है, 770M से 1.3B Transformers को मैच करता है

UC San Diego और Together AI के रिसर्चरों ने लूप्ड लैंग्वेज मॉडल्स की लंबे समय से चली आ रही समस्या हल की है — ऐसे आर्किटेक्चर जो समान transformer ब्लॉक्स को कई बार चलाकर पैरामीटर बढ़ाए बिना कम्प्यूट बढ़ाते हैं। उनका नया मॉडल, Parcae, पहले के लूप्ड एप्रोचेज से 6.3% कम वैलिडेशन perplexity हासिल करता है और केवल 770M पैरामीटर्स इस्तेमाल करके 1.3B पैरामीटर transformer को मैच करता है। ब्रेकथ्रू इस बात में है कि लूप्ड आर्किटेक्चर को डायनामिकल सिस्टम की तरह ट्रीट करना और "residual state explosion" को रोकने के लिए कंट्रोल theory अप्लाई करना जो पुराने लूप्ड मॉडल्स को ट्रेन करना लगभग असंभव बनाता था।

यह इसलिए मायने रखता है क्योंकि इंडस्ट्री का डिफ़ॉल्ट स्केलिंग एप्रोच — ज्यादा पैरामीटर्स, ज्यादा डेटा, ज्यादा कम्प्यूट — edge devices पर मॉडल्स deploy करते समय या inference costs मैनेज करते समय जल्दी दीवारों से टकराता है। लूप्ड आर्किटेक्चर एक अलग ट्रेड-ऑफ़ ऑफर करते हैं: समान memory footprint, हर forward pass में ज्यादा computation। लेकिन पहले के attempts जैसे Recurrent Depth Models training instability और loss spikes से पीड़ित थे जिनमें extreme hyperparameter babysitting की जरूरत थी। Parcae का middle-looped design spectral norm constraints के साथ इन मॉडल्स को वास्तव में scale पर trainable बनाता है।

रिसर्च लूप्ड मॉडल्स के लिए पहले scaling laws स्थापित करती है, दिखाती है कि compute-optimal training में loop count और data दोनों को साथ बढ़ाना जरूरी है — सिर्फ loops को cranking up करना नहीं। टीम ने अपने approach को multiple scales पर टेस्ट किया और लगातार identical parameter budgets वाले fixed-depth transformers को outperform किया। हालांकि paper language modeling perplexity पर focus करता है, असली टेस्ट downstream task performance होगा और क्या ये efficiency gains production deployments में बने रहते हैं।

Memory-constrained applications बनाने वाले developers के लिए, यह "bigger is better" scaling paradigm का एक genuine alternative खोलता है। Model quality और deployment constraints के बीच choose करने की बजाय, Parcae suggest करता है कि आप दोनों पा सकते हैं — अगर आप inference के दौरान memory efficiency को increased compute के लिए trade करने को तैयार हैं।

Parcae लूप्ड मॉडल्स को वास्तव में काम करता बनाता है, 770M से 1.3B Transformers को मैच करता है

और समाचार