引导比例：定义与含义 — AI 维基

控制图像生成模型遵循文本提示强度的参数。低引导（1–3）：模型自由生成，产出多样但可能偏题的图像。高引导（7–15）：模型严格遵循提示，但可能产出过饱和、有瑕疵的图像。通常的最佳区间是7–9。它是图像生成中相当于文本模型温度参数的东西。

为什么重要

引导比例是图像生成中仅次于提示本身最具影响力的参数。太低则图像忽略你的描述。太高则图像看起来过饱和且不自然。理解引导比例帮助你排查“为什么我的图像不匹配我的提示？”（引导太低）和“为什么我的图像看起来很奇怪？”（引导太高）。

深度解析

无分类器引导（Ho & Salimans，2022）的工作方式是每步计算两个去噪预测：一个有条件的（使用你的提示）和一个无条件的（忽略提示）。最终预测放大它们的差异：output = unconditional + scale × (conditional − unconditional)。Scale=1意味着没有引导（只是条件预测）。Scale=7意味着模型将提示的影响放大到自然水平的7倍。

为什么不是越高越好

更高的引导使图像更“提示对齐”，但有代价：模型过冲，产出过饱和的颜色、不真实的光照和视觉瑕疵。非常高的引导（15+）通常产出看起来像经过锐化滤镜处理的图像——技术上匹配提示但审美上很差。最佳值取决于模型：SD 1.5在7–9效果好，SDXL在5–8，Flux在3–5。

动态和负向CFG

高级技术在生成过程中操纵引导：开始时使用高引导（建立构图），在后期步骤中降低（自然地细化细节）。负向CFG（引导比例低于1）反转提示的效果，生成所描述内容的反面——有助于理解模型将什么与特定概念关联，但很少用于实际的图像生成。