Classifier-free guidance (Ho & Salimans, 2022) funciona calculando dos predicciones de denoising por paso: una condicional (usando tu prompt) y una incondicional (ignorando el prompt). La predicción final amplifica la diferencia: salida = incondicional + escala × (condicional − incondicional). Escala=1 significa sin guidance (solo la predicción condicional). Escala=7 significa que el modelo amplifica la influencia del prompt 7x más allá de lo que haría naturalmente.
Un guidance más alto hace la imagen más "alineada con el prompt" pero a un costo: el modelo se excede, produciendo colores sobresaturados, iluminación poco realista y artefactos visuales. Un guidance muy alto (15+) a menudo produce imágenes que parecen haber pasado por un filtro de nitidez — técnicamente coincidiendo con el prompt pero estéticamente pobres. El punto ideal depende del modelo: SD 1.5 funciona bien en 7–9, SDXL en 5–8 y Flux en 3–5.
Técnicas avanzadas manipulan el guidance durante la generación: comenzando con guidance alto (para establecer la composición) y reduciéndolo en pasos posteriores (para refinar detalles naturalmente). CFG negativo (escala de guidance por debajo de 1) invierte el efecto del prompt, generando lo opuesto de lo descrito — útil para entender qué asocia el modelo con conceptos específicos pero raramente útil para generación de imágenes real.