无分类器引导(Ho & Salimans,2022)的工作方式是每步计算两个去噪预测:一个有条件的(使用你的提示)和一个无条件的(忽略提示)。最终预测放大它们的差异:output = unconditional + scale × (conditional − unconditional)。Scale=1意味着没有引导(只是条件预测)。Scale=7意味着模型将提示的影响放大到自然水平的7倍。
更高的引导使图像更“提示对齐”,但有代价:模型过冲,产出过饱和的颜色、不真实的光照和视觉瑕疵。非常高的引导(15+)通常产出看起来像经过锐化滤镜处理的图像——技术上匹配提示但审美上很差。最佳值取决于模型:SD 1.5在7–9效果好,SDXL在5–8,Flux在3–5。
高级技术在生成过程中操纵引导:开始时使用高引导(建立构图),在后期步骤中降低(自然地细化细节)。负向CFG(引导比例低于1)反转提示的效果,生成所描述内容的反面——有助于理解模型将什么与特定概念关联,但很少用于实际的图像生成。