Classifier-free guidance (Ho & Salimans, 2022) funciona calculando duas previsões de denoising por passo: uma condicional (usando seu prompt) e uma incondicional (ignorando o prompt). A previsão final amplifica a diferença: saída = incondicional + escala × (condicional − incondicional). Escala=1 significa sem guidance (apenas a previsão condicional). Escala=7 significa que o modelo amplifica a influência do prompt 7x além do que faria naturalmente.
Guidance mais alto torna a imagem mais "alinhada ao prompt" mas com um custo: o modelo extrapola, produzindo cores supersaturadas, iluminação irrealista e artefatos visuais. Guidance muito alto (15+) frequentemente produz imagens que parecem ter passado por um filtro de nitidez — tecnicamente correspondendo ao prompt mas esteticamente ruins. O ponto ideal depende do modelo: SD 1.5 funciona bem em 7–9, SDXL em 5–8 e Flux em 3–5.
Técnicas avançadas manipulam o guidance durante a geração: começando com guidance alto (para estabelecer a composição) e reduzindo nos passos posteriores (para refinar detalhes naturalmente). CFG negativo (escala de guidance abaixo de 1) inverte o efeito do prompt, gerando o oposto do que foi descrito — útil para entender o que o modelo associa a conceitos específicos mas raramente útil para geração real de imagens.