Zyphra ने ZAYA1-8B-Diffusion-Preview जारी किया, जिसे यह पहला MoE डिफ्यूज़न मॉडल बताता है जो स्क्रैच से प्रशिक्षित होने के बजाय एक ऑटोरेग्रेसिव LLM से परिवर्तित किया गया है। प्रारंभिक बिंदु ZAYA1-8B है, एक MoE ऑटोरेग्रेसिव मॉडल जो Zyphra के CCA (Continuous Compression Attention) वैरिएंट को CCGQA कॉन्फ़िगरेशन के साथ उपयोग करता है। रूपांतरण लगभग 1.1 ट्रिलियन अतिरिक्त मिड-ट्रेनिंग टोकन्स में TiDAR नुस्ख़े का उपयोग करता है: 32k कॉन्टेक्स्ट पर डिफ्यूज़न-रूपांतरण प्रशिक्षण के 600B टोकन्स, 128k तक नेटिव कॉन्टेक्स्ट विस्तार के 500B टोकन्स, और एक डिफ्यूज़न सुपरवाइज़्ड फ़ाइन-ट्यूनिंग चरण। हेडलाइन तेज़ी संख्याएँ ख़बर हैं: कोई व्यवस्थित हानि नहीं वाला हानिरहित सैम्पलर 4.6x इन्फेरेंस तेज़ी पर, और कुछ क्वालिटी ट्रेड-ऑफ के साथ एक logit-mixing सैम्पलर 7.7x पर। स्थिति प्रीव्यू है, सामान्य उपलब्धता नहीं — Zyphra डिफ्यूज़न इन्फेरेंस स्टैक को "प्रारंभिक चरण" बताता है।

तंत्र क्रम-प्रतिबंधित जनरेशन के साथ सिंगल-स्टेप अनुमानात्मक डिफ्यूज़न है: पूर्ण रैंडम-पोज़िशन मास्क्ड डिफ्यूज़न के बजाय, मॉडल प्रीफ़िक्स से विस्तारित निरंतर उपश्रेणियाँ उत्पन्न करता है, प्रति फ़ॉरवर्ड पास 16 टोकन्स एक साथ भविष्यवाणी करता है टोकन ब्लॉक में साझा KV-कैश के साथ। यह डीकोडिंग को मेमोरी-बैंडविड्थ बाउंड से कंप्यूट-बाउंड में बदल देता है — जो मायने रखता है क्योंकि आधुनिक त्वरक कई पीढ़ियों से HBM बैंडविड्थ की तुलना में FLOPs को तेज़ी से स्केल कर रहे हैं, और इन्फेरेंस तेज़ी से मेमोरी पर बॉटलनेक है, अंकगणित पर नहीं। AMD MI300x पर वे प्रति पास लगभग 3 ब्लॉक प्रस्ताव की रिपोर्ट करते हैं; नए MI355x पर लगभग 5। क्रम-प्रतिबंधित फ़्रेमिंग का यह भी मतलब है कि यह image-gen के अर्थ में फ्री-फ़ॉर्म डिफ्यूज़न मॉडल नहीं है — यह उस वाक्यांश के सबसे मज़बूत अर्थ में "डिफ्यूज़न भाषा मॉडल" की तुलना में डिफ्यूज़न-शैली प्रशिक्षण उद्देश्य के साथ बड़े-ब्लॉक अनुमानात्मक डीकोडिंग के क़रीब है।

ईमानदार मूल्यांकन पठन दो-स्तरीय है। पहला, Zyphra मानक सटीकता बेंचमार्क के बजाय "pass@" मेट्रिक्स पर ज़ोर देता है क्योंकि यह प्री-RL प्रशिक्षण से पहले एक बेस मिड-ट्रेन चेकपॉइंट है; ऑटोरेग्रेसिव बेस की तुलना में "न्यूनतम मूल्यांकन गिरावट" के साथ LCB-v6 पर गेन्स रिपोर्ट किए गए हैं, लेकिन घोषणा में प्रति-बेंचमार्क डेल्टा तालिकाएँ नहीं दिखाई देती हैं। दूसरा, द्वि-सैम्पलर रिपोर्टिंग — 4.6x हानिरहित और 7.7x ट्रेड-ऑफ़ के साथ — खुलासे का सही रूप है, लेकिन 7.7x पर ट्रेड-ऑफ़ का आकार सार्वजनिक रिलीज़ में मात्राबद्ध नहीं है। इसका मूल्यांकन करने वाले बिल्डर्स को दोनों संख्याएँ पढ़नी चाहिए: हानिरहित आँकड़ा रूढ़िवादी दावा है, हेडलाइन 7.7x आक्रामक दावा है, और logit-mixing सैम्पलर का उपयोग करने का वास्तविक निर्णय आपके वर्कलोड पर गुणवत्ता विचरण की सहनशीलता पर निर्भर करता है। ZAYA1-8B-base (ऑटोरेग्रेसिव मॉडल) Hugging Face पर है; डिफ्यूज़न वैरिएंट के रिलीज़ आर्टिफ़ैक्ट्स और लाइसेंस स्थिति घोषणा में पूरी तरह से विस्तृत नहीं हैं।

इन्फेरेंस अर्थशास्त्र देख रहे बिल्डर्स के लिए: यदि 4.6x हानिरहित संख्या मामूली बैच आकार पर वास्तविक वर्कलोड पर तीसरे-पक्ष बेंचमार्किंग में टिकती है, तो यह उच्च-वॉल्यूम टेक्स्ट जनरेशन के लिए लागत वक्र में एक सार्थक बदलाव है, विशेष रूप से AMD सिलिकॉन पर जहाँ MI300x/MI355x संख्याएँ मापी गई थीं। आर्किटेक्चरल दावा — AR मॉडल को स्क्रैच से पुन: प्रशिक्षित करने के बजाय परिवर्तित करना — पद्धतिगत रूप से भी दिलचस्प है क्योंकि यह सुझाव देता है कि यदि TiDAR नुस्ख़ा Zyphra के स्टैक के बाहर सामान्यीकृत होता है, तो मौजूदा AR MoE चेकपॉइंट्स को महंगे प्री-ट्रेनिंग को फिर से चलाए बिना डिफ्यूज़न वैरिएंट्स में रेट्रोफ़िट किया जा सकता है। यह तय करने वाले परीक्षण कि यह स्थायी परिवर्तन है या एकल-विक्रेता शोध प्रीव्यू है, अन्य AR MoE बेस (Qwen MoE, DeepSeek MoE वैरिएंट्स) पर पुनरुत्पादन हैं, और एक बार Zyphra प्री-RL चेकपॉइंट से आगे बढ़ने पर मानक मूल्यांकनों पर प्रति-बेंचमार्क स्वच्छ संख्याएँ हैं।