मूल DiT पेपर (Peebles & Xie, 2023) ने दिखाया कि बस U-Net को एक मानक Transformer से बदलकर और इसे स्केल करके बेहतर इमेज गुणवत्ता प्राप्त की जा सकती है। Transformer इमेज पैच को प्रोसेस करता है (Vision Transformers के समान) diffusion timestep और class labels से अतिरिक्त conditioning के साथ। मुख्य खोज: DiT स्पष्ट scaling laws का पालन करता है — बड़े मॉडल और अधिक compute अनुमानित रूप से बेहतर इमेज उत्पन्न करते हैं, ठीक LLMs की तरह।
U-Nets कई रिज़ॉल्यूशन पर इमेज प्रोसेस करते हैं, skip connections के साथ downsampling फिर upsampling करते हैं। यह inductive bias तब उपयोगी था जब compute सीमित था, लेकिन यह आर्किटेक्चरल जटिलता पेश करता है और उतनी स्पष्ट रूप से स्केल नहीं करता। Transformers, अपने एकसमान आर्किटेक्चर के साथ, स्केल करने में सरल हैं और अतिरिक्त compute और डेटा से अधिक लाभान्वित होते हैं। ट्रेड-ऑफ: सभी इमेज पैच पर द्विघात attention के कारण Transformers अधिक मेमोरी-भूखे हैं।
Stable Diffusion 3 और Flux MM-DiT (Multi-Modal DiT) का उपयोग करते हैं, जो टेक्स्ट और इमेज टोकन को अलग-अलग स्ट्रीम में प्रोसेस करता है जो cross-attention के माध्यम से इंटरैक्ट करती हैं। यह मूल DiT में उपयोग किए गए सरल text-conditioning से अधिक प्रभावी है। टेक्स्ट स्ट्रीम एक frozen text encoder (जैसे T5 या CLIP) का उपयोग करती है, और इमेज स्ट्रीम diffusion प्रक्रिया का उपयोग करती है। दोनों स्ट्रीम प्रत्येक Transformer ब्लॉक पर जानकारी का आदान-प्रदान करती हैं।