Dominant approach: text को embeddings में encode करें (CLIP या T5 के माध्यम से), random noise से शुरू करें, और cross-attention के माध्यम से text embeddings पर conditioning करते हुए iteratively denoise करें। प्रत्येक denoising step image को थोड़ा कम noisy और prompt के साथ अधिक aligned बनाता है। 20–50 steps (या flow matching के साथ 4–10) के बाद, एक clean image उभरती है। Model ने अरबों image-caption pairs से text descriptions और image features के बीच सांख्यिकीय संबंध सीखा है।
Text prompts से परे, आधुनिक image generation support करता है: image-to-image (मौजूदा image modify करें), ControlNet (edge maps, depth maps, या poses के साथ composition guide करें), inpainting (image के भाग को regenerate करें), और style transfer (एक image की aesthetic दूसरे पर apply करें)। ये controls professional workflows के लिए image generation को व्यावहारिक बनाते हैं जहां "कुछ random generate करो" पर्याप्त नहीं है — आपको specific compositions, poses, और layouts चाहिए।
Image quality improvements तीन स्रोतों से आती हैं: बेहतर architectures (U-Net से DiT), बेहतर training (diffusion पर flow matching), और बेहतर data (higher resolution, बेहतर captions, अधिक diverse)। वर्तमान frontier models ऐसी photorealistic images produce करते हैं जिन्हें photographs से अलग करना कठिन है, हालांकि वे अभी भी संघर्ष करते हैं: हाथों और उंगलियों, text rendering, spatial relationships ("A, B के बाईं ओर है"), और counting ("ठीक पांच सेब") के साथ। ये शेष चुनौतियां active research areas हैं।