Zubnet AI学习Wiki › 引导比例
使用AI

引导比例

别名:CFG比例、无分类器引导
控制图像生成模型遵循文本提示强度的参数。低引导(1–3):模型自由生成,产出多样但可能偏题的图像。高引导(7–15):模型严格遵循提示,但可能产出过饱和、有瑕疵的图像。通常的最佳区间是7–9。它是图像生成中相当于文本模型温度参数的东西。

为什么重要

引导比例是图像生成中仅次于提示本身最具影响力的参数。太低则图像忽略你的描述。太高则图像看起来过饱和且不自然。理解引导比例帮助你排查“为什么我的图像不匹配我的提示?”(引导太低)和“为什么我的图像看起来很奇怪?”(引导太高)。

深度解析

无分类器引导(Ho & Salimans,2022)的工作方式是每步计算两个去噪预测:一个有条件的(使用你的提示)和一个无条件的(忽略提示)。最终预测放大它们的差异:output = unconditional + scale × (conditional − unconditional)。Scale=1意味着没有引导(只是条件预测)。Scale=7意味着模型将提示的影响放大到自然水平的7倍。

为什么不是越高越好

更高的引导使图像更“提示对齐”,但有代价:模型过冲,产出过饱和的颜色、不真实的光照和视觉瑕疵。非常高的引导(15+)通常产出看起来像经过锐化滤镜处理的图像——技术上匹配提示但审美上很差。最佳值取决于模型:SD 1.5在7–9效果好,SDXL在5–8,Flux在3–5。

动态和负向CFG

高级技术在生成过程中操纵引导:开始时使用高引导(建立构图),在后期步骤中降低(自然地细化细节)。负向CFG(引导比例低于1)反转提示的效果,生成所描述内容的反面——有助于理解模型将什么与特定概念关联,但很少用于实际的图像生成。

← 所有术语