Guidance Scale: परिभाषा और अर्थ — AI विकी

एक parameter जो नियंत्रित करता है कि image generation मॉडल text prompt का कितनी मजबूती से अनुसरण करता है। कम guidance (1–3): मॉडल स्वतंत्र रूप से generate करता है, विविध लेकिन संभावित रूप से off-topic छवियाँ उत्पन्न करता है। उच्च guidance (7–15): मॉडल prompt का सख्ती से अनुसरण करता है लेकिन saturated, artifact-भरी छवियाँ उत्पन्न कर सकता है। सामान्य sweet spot 7–9 है। यह text मॉडलों के लिए temperature का image generation समकक्ष है।

यह क्यों मायने रखता है

Guidance scale prompt के बाद image generation में सबसे प्रभावशाली parameter है। बहुत कम और छवि आपके विवरण को अनदेखा करती है। बहुत अधिक और यह oversaturated और कृत्रिम दिखती है। Guidance scale को समझना आपको "मेरी छवि मेरे prompt से मेल क्यों नहीं खाती?" (guidance बहुत कम) और "मेरी छवि अजीब क्यों दिखती है?" (guidance बहुत अधिक) के समस्या निवारण में मदद करता है।

गहन अध्ययन

Classifier-free guidance (Ho & Salimans, 2022) प्रति step दो denoising predictions की गणना करके काम करता है: एक conditional (आपके prompt का उपयोग करके) और एक unconditional (prompt को अनदेखा करके)। अंतिम prediction अंतर को बढ़ाता है: output = unconditional + scale × (conditional − unconditional)। Scale=1 का मतलब कोई guidance नहीं (केवल conditional prediction)। Scale=7 का मतलब मॉडल prompt के प्रभाव को 7x बढ़ाता है जो वह स्वाभाविक रूप से करता।

अधिक हमेशा बेहतर क्यों नहीं है

उच्च guidance छवि को अधिक "prompt-aligned" बनाता है लेकिन एक कीमत पर: मॉडल overshoot करता है, oversaturated रंग, अवास्तविक lighting, और visual artifacts उत्पन्न करता है। बहुत उच्च guidance (15+) अक्सर ऐसी छवियाँ उत्पन्न करता है जो sharpening filter से गुज़रती दिखती हैं — तकनीकी रूप से prompt से मेल खाती हैं लेकिन सौंदर्य की दृष्टि से खराब। Sweet spot मॉडल पर निर्भर करता है: SD 1.5 7–9 पर अच्छा काम करता है, SDXL 5–8 पर, और Flux 3–5 पर।

Dynamic और Negative CFG

उन्नत तकनीकें generation के दौरान guidance को manipulate करती हैं: उच्च guidance से शुरू करना (composition स्थापित करने के लिए) और बाद के steps में इसे कम करना (details को स्वाभाविक रूप से refine करने के लिए)। Negative CFG (1 से कम guidance scale) prompt के प्रभाव को उल्टा करता है, वर्णित के विपरीत generate करता है — यह समझने के लिए उपयोगी है कि मॉडल विशिष्ट अवधारणाओं के साथ क्या जोड़ता है लेकिन वास्तविक image generation के लिए शायद ही कभी उपयोगी है।

Guidance Scale

यह क्यों मायने रखता है

गहन अध्ययन

अधिक हमेशा बेहतर क्यों नहीं है

Dynamic और Negative CFG

संबंधित अवधारणाएँ