Classifier-free guidance (Ho & Salimans, 2022) प्रति step दो denoising predictions की गणना करके काम करता है: एक conditional (आपके prompt का उपयोग करके) और एक unconditional (prompt को अनदेखा करके)। अंतिम prediction अंतर को बढ़ाता है: output = unconditional + scale × (conditional − unconditional)। Scale=1 का मतलब कोई guidance नहीं (केवल conditional prediction)। Scale=7 का मतलब मॉडल prompt के प्रभाव को 7x बढ़ाता है जो वह स्वाभाविक रूप से करता।
उच्च guidance छवि को अधिक "prompt-aligned" बनाता है लेकिन एक कीमत पर: मॉडल overshoot करता है, oversaturated रंग, अवास्तविक lighting, और visual artifacts उत्पन्न करता है। बहुत उच्च guidance (15+) अक्सर ऐसी छवियाँ उत्पन्न करता है जो sharpening filter से गुज़रती दिखती हैं — तकनीकी रूप से prompt से मेल खाती हैं लेकिन सौंदर्य की दृष्टि से खराब। Sweet spot मॉडल पर निर्भर करता है: SD 1.5 7–9 पर अच्छा काम करता है, SDXL 5–8 पर, और Flux 3–5 पर।
उन्नत तकनीकें generation के दौरान guidance को manipulate करती हैं: उच्च guidance से शुरू करना (composition स्थापित करने के लिए) और बाद के steps में इसे कम करना (details को स्वाभाविक रूप से refine करने के लिए)। Negative CFG (1 से कम guidance scale) prompt के प्रभाव को उल्टा करता है, वर्णित के विपरीत generate करता है — यह समझने के लिए उपयोगी है कि मॉडल विशिष्ट अवधारणाओं के साथ क्या जोड़ता है लेकिन वास्तविक image generation के लिए शायद ही कभी उपयोगी है।