Zyphra ZAYA1-8B-Diffusion: TiDAR के माध्यम से 7.7x (हानिकर) या 4.6x (हानिरहित) तेज़ी, Zubnet AI समाचार

Zyphra ने ZAYA1-8B-Diffusion-Preview जारी किया, जिसे यह पहला MoE डिफ्यूज़न मॉडल बताता है जो स्क्रैच से प्रशिक्षित होने के बजाय एक ऑटोरेग्रेसिव LLM से परिवर्तित किया गया है। प्रारंभिक बिंदु ZAYA1-8B है, एक MoE ऑटोरेग्रेसिव मॉडल जो Zyphra के CCA (Continuous Compression Attention) वैरिएंट को CCGQA कॉन्फ़िगरेशन के साथ उपयोग करता है। रूपांतरण लगभग 1.1 ट्रिलियन अतिरिक्त मिड-ट्रेनिंग टोकन्स में TiDAR नुस्ख़े का उपयोग करता है: 32k कॉन्टेक्स्ट पर डिफ्यूज़न-रूपांतरण प्रशिक्षण के 600B टोकन्स, 128k तक नेटिव कॉन्टेक्स्ट विस्तार के 500B टोकन्स, और एक डिफ्यूज़न सुपरवाइज़्ड फ़ाइन-ट्यूनिंग चरण। हेडलाइन तेज़ी संख्याएँ ख़बर हैं: कोई व्यवस्थित हानि नहीं वाला हानिरहित सैम्पलर 4.6x इन्फेरेंस तेज़ी पर, और कुछ क्वालिटी ट्रेड-ऑफ के साथ एक logit-mixing सैम्पलर 7.7x पर। स्थिति प्रीव्यू है, सामान्य उपलब्धता नहीं — Zyphra डिफ्यूज़न इन्फेरेंस स्टैक को "प्रारंभिक चरण" बताता है।

तंत्र क्रम-प्रतिबंधित जनरेशन के साथ सिंगल-स्टेप अनुमानात्मक डिफ्यूज़न है: पूर्ण रैंडम-पोज़िशन मास्क्ड डिफ्यूज़न के बजाय, मॉडल प्रीफ़िक्स से विस्तारित निरंतर उपश्रेणियाँ उत्पन्न करता है, प्रति फ़ॉरवर्ड पास 16 टोकन्स एक साथ भविष्यवाणी करता है टोकन ब्लॉक में साझा KV-कैश के साथ। यह डीकोडिंग को मेमोरी-बैंडविड्थ बाउंड से कंप्यूट-बाउंड में बदल देता है — जो मायने रखता है क्योंकि आधुनिक त्वरक कई पीढ़ियों से HBM बैंडविड्थ की तुलना में FLOPs को तेज़ी से स्केल कर रहे हैं, और इन्फेरेंस तेज़ी से मेमोरी पर बॉटलनेक है, अंकगणित पर नहीं। AMD MI300x पर वे प्रति पास लगभग 3 ब्लॉक प्रस्ताव की रिपोर्ट करते हैं; नए MI355x पर लगभग 5। क्रम-प्रतिबंधित फ़्रेमिंग का यह भी मतलब है कि यह image-gen के अर्थ में फ्री-फ़ॉर्म डिफ्यूज़न मॉडल नहीं है — यह उस वाक्यांश के सबसे मज़बूत अर्थ में "डिफ्यूज़न भाषा मॉडल" की तुलना में डिफ्यूज़न-शैली प्रशिक्षण उद्देश्य के साथ बड़े-ब्लॉक अनुमानात्मक डीकोडिंग के क़रीब है।

ईमानदार मूल्यांकन पठन दो-स्तरीय है। पहला, Zyphra मानक सटीकता बेंचमार्क के बजाय "pass@" मेट्रिक्स पर ज़ोर देता है क्योंकि यह प्री-RL प्रशिक्षण से पहले एक बेस मिड-ट्रेन चेकपॉइंट है; ऑटोरेग्रेसिव बेस की तुलना में "न्यूनतम मूल्यांकन गिरावट" के साथ LCB-v6 पर गेन्स रिपोर्ट किए गए हैं, लेकिन घोषणा में प्रति-बेंचमार्क डेल्टा तालिकाएँ नहीं दिखाई देती हैं। दूसरा, द्वि-सैम्पलर रिपोर्टिंग — 4.6x हानिरहित और 7.7x ट्रेड-ऑफ़ के साथ — खुलासे का सही रूप है, लेकिन 7.7x पर ट्रेड-ऑफ़ का आकार सार्वजनिक रिलीज़ में मात्राबद्ध नहीं है। इसका मूल्यांकन करने वाले बिल्डर्स को दोनों संख्याएँ पढ़नी चाहिए: हानिरहित आँकड़ा रूढ़िवादी दावा है, हेडलाइन 7.7x आक्रामक दावा है, और logit-mixing सैम्पलर का उपयोग करने का वास्तविक निर्णय आपके वर्कलोड पर गुणवत्ता विचरण की सहनशीलता पर निर्भर करता है। ZAYA1-8B-base (ऑटोरेग्रेसिव मॉडल) Hugging Face पर है; डिफ्यूज़न वैरिएंट के रिलीज़ आर्टिफ़ैक्ट्स और लाइसेंस स्थिति घोषणा में पूरी तरह से विस्तृत नहीं हैं।

इन्फेरेंस अर्थशास्त्र देख रहे बिल्डर्स के लिए: यदि 4.6x हानिरहित संख्या मामूली बैच आकार पर वास्तविक वर्कलोड पर तीसरे-पक्ष बेंचमार्किंग में टिकती है, तो यह उच्च-वॉल्यूम टेक्स्ट जनरेशन के लिए लागत वक्र में एक सार्थक बदलाव है, विशेष रूप से AMD सिलिकॉन पर जहाँ MI300x/MI355x संख्याएँ मापी गई थीं। आर्किटेक्चरल दावा — AR मॉडल को स्क्रैच से पुन: प्रशिक्षित करने के बजाय परिवर्तित करना — पद्धतिगत रूप से भी दिलचस्प है क्योंकि यह सुझाव देता है कि यदि TiDAR नुस्ख़ा Zyphra के स्टैक के बाहर सामान्यीकृत होता है, तो मौजूदा AR MoE चेकपॉइंट्स को महंगे प्री-ट्रेनिंग को फिर से चलाए बिना डिफ्यूज़न वैरिएंट्स में रेट्रोफ़िट किया जा सकता है। यह तय करने वाले परीक्षण कि यह स्थायी परिवर्तन है या एकल-विक्रेता शोध प्रीव्यू है, अन्य AR MoE बेस (Qwen MoE, DeepSeek MoE वैरिएंट्स) पर पुनरुत्पादन हैं, और एक बार Zyphra प्री-RL चेकपॉइंट से आगे बढ़ने पर मानक मूल्यांकनों पर प्रति-बेंचमार्क स्वच्छ संख्याएँ हैं।

Zyphra ZAYA1-8B-Diffusion: TiDAR के माध्यम से 7.7x (हानिकर) या 4.6x (हानिरहित) तेज़ी

और समाचार