Zubnet AIसीखेंWiki › Diffusion Transformer
मॉडल

Diffusion Transformer

इसे भी कहा जाता है: DiT
एक आर्किटेक्चर जो diffusion मॉडल में पारंपरिक रूप से उपयोग किए जाने वाले U-Net बैकबोन को Transformer से बदलता है। DiT इमेज जनरेशन में attention तंत्र लागू करता है, जिससे वही scaling व्यवहार सक्षम होता है जिसने LLMs को इतना शक्तिशाली बनाया। Sora, Flux, Stable Diffusion 3, और अधिकांश अत्याधुनिक इमेज और वीडियो जनरेटर DiT या इसके वेरिएंट का उपयोग करते हैं।

यह क्यों मायने रखता है

DiT ने भाषा और इमेज जनरेशन की दुनियाओं को एक एकल आर्किटेक्चरल प्रतिमान: Transformer के तहत एकीकृत किया। इसका मतलब है कि LLMs के लिए विकसित scaling laws, प्रशिक्षण तकनीकें और ऑप्टिमाइज़ेशन रणनीतियाँ बड़े पैमाने पर इमेज और वीडियो जनरेशन में स्थानांतरित होती हैं। इसीलिए इमेज गुणवत्ता में इतनी तेज़ी से सुधार हुआ है — यह क्षेत्र भाषा की तरह ही scaling curve पर सवार है।

गहन अध्ययन

मूल DiT पेपर (Peebles & Xie, 2023) ने दिखाया कि बस U-Net को एक मानक Transformer से बदलकर और इसे स्केल करके बेहतर इमेज गुणवत्ता प्राप्त की जा सकती है। Transformer इमेज पैच को प्रोसेस करता है (Vision Transformers के समान) diffusion timestep और class labels से अतिरिक्त conditioning के साथ। मुख्य खोज: DiT स्पष्ट scaling laws का पालन करता है — बड़े मॉडल और अधिक compute अनुमानित रूप से बेहतर इमेज उत्पन्न करते हैं, ठीक LLMs की तरह।

U-Net से Transformer तक

U-Nets कई रिज़ॉल्यूशन पर इमेज प्रोसेस करते हैं, skip connections के साथ downsampling फिर upsampling करते हैं। यह inductive bias तब उपयोगी था जब compute सीमित था, लेकिन यह आर्किटेक्चरल जटिलता पेश करता है और उतनी स्पष्ट रूप से स्केल नहीं करता। Transformers, अपने एकसमान आर्किटेक्चर के साथ, स्केल करने में सरल हैं और अतिरिक्त compute और डेटा से अधिक लाभान्वित होते हैं। ट्रेड-ऑफ: सभी इमेज पैच पर द्विघात attention के कारण Transformers अधिक मेमोरी-भूखे हैं।

MM-DiT: Multi-Modal DiT

Stable Diffusion 3 और Flux MM-DiT (Multi-Modal DiT) का उपयोग करते हैं, जो टेक्स्ट और इमेज टोकन को अलग-अलग स्ट्रीम में प्रोसेस करता है जो cross-attention के माध्यम से इंटरैक्ट करती हैं। यह मूल DiT में उपयोग किए गए सरल text-conditioning से अधिक प्रभावी है। टेक्स्ट स्ट्रीम एक frozen text encoder (जैसे T5 या CLIP) का उपयोग करती है, और इमेज स्ट्रीम diffusion प्रक्रिया का उपयोग करती है। दोनों स्ट्रीम प्रत्येक Transformer ब्लॉक पर जानकारी का आदान-प्रदान करती हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← DeepSeek DPO →