Escala de Guidance: Definição e significado — Wiki de IA

Um parâmetro que controla quão fortemente um modelo de geração de imagens segue o prompt de texto. Guidance baixo (1–3): o modelo gera livremente, produzindo imagens diversas mas potencialmente fora do tema. Guidance alto (7–15): o modelo segue estritamente o prompt mas pode produzir imagens saturadas e com artefatos. O ponto ideal típico é 7–9. É o equivalente em geração de imagens da temperature para modelos de texto.

Por que isso importa

A escala de guidance é o parâmetro mais impactante na geração de imagens depois do prompt em si. Muito baixa e a imagem ignora sua descrição. Muito alta e fica supersaturada e artificial. Entender a escala de guidance ajuda a diagnosticar "por que minha imagem não corresponde ao meu prompt?" (guidance muito baixo) e "por que minha imagem parece estranha?" (guidance muito alto).

Em profundidade

Classifier-free guidance (Ho & Salimans, 2022) funciona calculando duas previsões de denoising por passo: uma condicional (usando seu prompt) e uma incondicional (ignorando o prompt). A previsão final amplifica a diferença: saída = incondicional + escala × (condicional − incondicional). Escala=1 significa sem guidance (apenas a previsão condicional). Escala=7 significa que o modelo amplifica a influência do prompt 7x além do que faria naturalmente.

Por que Mais Alto Nem Sempre É Melhor

Guidance mais alto torna a imagem mais "alinhada ao prompt" mas com um custo: o modelo extrapola, produzindo cores supersaturadas, iluminação irrealista e artefatos visuais. Guidance muito alto (15+) frequentemente produz imagens que parecem ter passado por um filtro de nitidez — tecnicamente correspondendo ao prompt mas esteticamente ruins. O ponto ideal depende do modelo: SD 1.5 funciona bem em 7–9, SDXL em 5–8 e Flux em 3–5.

CFG Dinâmico e Negativo

Técnicas avançadas manipulam o guidance durante a geração: começando com guidance alto (para estabelecer a composição) e reduzindo nos passos posteriores (para refinar detalhes naturalmente). CFG negativo (escala de guidance abaixo de 1) inverte o efeito do prompt, gerando o oposto do que foi descrito — útil para entender o que o modelo associa a conceitos específicos mas raramente útil para geração real de imagens.