Zubnet AIसीखेंWiki › Stable Diffusion
मॉडल

Stable Diffusion

इसे भी कहा जाता है: SD, SDXL, SD3
सबसे व्यापक रूप से उपयोग किया जाने वाला open-source image generation मॉडल, Stability AI द्वारा शैक्षणिक शोधकर्ताओं के सहयोग से बनाया गया। Stable Diffusion latent diffusion का उपयोग करके text prompts से छवियाँ उत्पन्न करता है — pixel space के बजाय compressed latent space में denoising प्रक्रिया करता है, जो इसे consumer GPUs पर चलाने के लिए पर्याप्त तेज बनाता है। SD 1.5, SDXL और SD3 क्रमिक पीढ़ियों का प्रतिनिधित्व करते हैं।

यह क्यों मायने रखता है

Stable Diffusion ने AI image generation को लोकतांत्रिक बनाया। SD से पहले, image generation के लिए महंगी API पहुँच (DALL-E) की आवश्यकता थी या यह शोध तक सीमित था। SD के open weights का मतलब था कि कोई भी इसे locally चला सकता था, fine-tune कर सकता था, और इस पर निर्माण कर सकता था। इसने एक विशाल ecosystem को जन्म दिया: LoRA fine-tunes, ControlNet, custom मॉडल, community-trained checkpoints, और Automatic1111 से ComfyUI तक के applications।

गहन अध्ययन

Architecture में तीन components हैं: एक text encoder (CLIP या T5) prompt को embeddings में बदलता है, एक U-Net (SD 1.5/SDXL) या DiT (SD3) latent space में iterative denoising करता है, और एक VAE decoder अंतिम latent representation को full-resolution छवि में बदलता है। "Latent" भाग महत्वपूर्ण है: 512×512 छवि (786K values) को denoise करने के बजाय, यह 64×64 latent (4K values) को denoise करता है, जिससे generation 50x तेज होता है।

Ecosystem

SD की open प्रकृति ने एक अभूतपूर्व ecosystem बनाया। Civitai और Hugging Face हज़ारों community-trained मॉडल और LoRA fine-tunes (anime style, photorealism, विशिष्ट characters) host करते हैं। WebUI frontends (Automatic1111, ComfyUI) जटिल generation workflows के लिए interfaces प्रदान करते हैं। ControlNet, IP-Adapter और अन्य extensions text prompting से परे नियंत्रण जोड़ते हैं। किसी अन्य AI मॉडल ने इस स्तर का community innovation उत्पन्न नहीं किया है।

SD3 और Architecture Shift

SD3 ने U-Net को DiT (Diffusion Transformer) से बदल दिया और diffusion से flow matching पर स्विच किया, क्षेत्र में व्यापक architectural रुझानों का अनुसरण करते हुए। यह बेहतर prompt understanding के लिए तीन text encoders (CLIP-L, CLIP-G, T5-XXL) भी उपयोग करता है। परिणाम: बेहतर text rendering, अधिक सुसंगत compositions, और बेहतर prompt following। लेकिन बड़ा मॉडल आकार (2B+ parameters) इसे consumer hardware पर चलाना कठिन बनाता है, SD के accessibility मिशन के साथ तनाव पैदा करता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Stability AI StepFun →
ESC