Sakana AI और टोक्यो विश्वविद्यालय ने DiffusionBlocks (arXiv 2506.14202, ICLR 2026) जारी किया — एक प्रशिक्षण फ्रेमवर्क जो एक transformer को B ब्लॉक्स में विभाजित करता है और प्रत्येक को end-to-end backpropagation के बजाय स्वतंत्र रूप से प्रशिक्षित करता है। सैद्धांतिक हुक framing है: residual updates को रिवर्स-डिफ्यूज़न ODE के Euler discretization चरणों के रूप में व्याख्या किया जाता है, इसलिए प्रत्येक ब्लॉक अपनी असाइन की गई noise-level range के लिए score-matching objective ले सकता है और अन्य ब्लॉक्स के साथ संवाद किए बिना प्रशिक्षित कर सकता है। रिपोर्ट की गई संख्याओं में प्रशिक्षण के दौरान लगभग B× मेमोरी कमी, मामूली noise conditioning ओवरहेड (प्रति step 0.0543s vs 0.0507s), और Huginn आवर्ती मॉडल पर 10× प्रशिक्षण compute कमी शामिल है।

ब्लॉक-वार प्रशिक्षण पहले प्रयास किया गया है — Forward-Forward, layer-wise pretraining, target propagation — और नेटवर्क में त्रुटि compounding और प्रत्येक परत के लिए ad-hoc objectives के कारण end-to-end backprop से ऐतिहासिक रूप से हार गया है। DiffusionBlocks का योगदान principled per-block objective के रूप में diffusion framing है: प्रत्येक ब्लॉक अपने स्वयं के noise स्तर पर score matching करता है, जो heuristic के बजाय एक अच्छी तरह से परिभाषित supervised target है। CIFAR-100 पर, paper Forward-Forward के 7.85% के विरुद्ध 59.30% accuracy रिपोर्ट करता है — समान आर्किटेक्चर, objective के कारण नाटकीय रूप से भिन्न convergence। बेंचमार्क vision (CIFAR-100 पर ViT, ImageNet 256×256 पर DiT-S/2 और DiT-L/2), भाषा (LM1B और OpenWebText पर autoregressive Transformers, masked diffusion), और recurrent (Huginn) को कवर करते हैं। विशेष रूप से diffusion मॉडलों के लिए, एक inference बोनस है — प्रति denoising चरण केवल एक ब्लॉक चलता है, B× inference speedup देता है जो pipeline parallelism मेल नहीं खा सकती।

बिल्डर्स के लिए इकोसिस्टम रीडिंग मेमोरी लीवर है। Adam के साथ मानक transformer प्रशिक्षण प्रति परत ~4× पैरामीटर मेमोरी लागत करता है (पैरामीटर + gradients + 2 optimizer states), और परतों में activation मेमोरी bill को संयोजित करती है। B× मेमोरी कमी का मतलब है कि आप एक GPU पर मॉडल को प्रशिक्षित कर सकते हैं जो पहले इसे रख नहीं सकता था, या उसी हार्डवेयर पर एक बड़ा मॉडल प्रशिक्षित कर सकते हैं। compute ओवरहेड वास्तविक है लेकिन मामूली है। ईमानदार चेतावनी: अनुभवजन्य बेंचमार्क small-model (CIFAR, ImageNet, LM1B, Huginn) हैं — क्या diffusion framing 70B+ LLM pretraining के लिए टिकेगा वह खुला प्रश्न है जो यह निर्धारित करेगा कि क्या यह default बन जाता है या research में रहता है। कोड GitHub पर है। Forward-Forward तुलना भी अप्रत्यक्ष है — वह algorithm कभी भी layer-wise विधियों के लिए सबसे मजबूत baseline नहीं था, और समान बजट पर gradient-only checkpointing के साथ तुलना अधिक उपयोगी है।

यदि आप सोमवार सुबह मेमोरी-constrained हार्डवेयर पर मॉडल प्रशिक्षित करते हैं: यह देखने के लिए कि क्या मेमोरी गणित आपके मामले के लिए काम करती है, अपने सबसे छोटे target मॉडल पर DiffusionBlocks आज़माने योग्य है। यदि आप एक frontier LM प्रशिक्षण pipeline चलाते हैं: इसे default के रूप में मानने से पहले देखें कि क्या स्वतंत्र labs एक सार्थक LLM पैमाने पर Huginn 10× compute कमी को पुनरुत्पादित करते हैं। methodology ध्यान देने योग्य principled है; क्या यह scale करता है वह खुला अनुभवजन्य प्रश्न है।