Escala de Guidance: Definición y significado — Wiki de IA

Un parámetro que controla qué tan fuertemente un modelo de generación de imágenes sigue el prompt de texto. Guidance bajo (1–3): el modelo genera libremente, produciendo imágenes diversas pero potencialmente fuera de tema. Guidance alto (7–15): el modelo sigue estrictamente el prompt pero puede producir imágenes saturadas y con artefactos. El punto ideal típico es 7–9. Es el equivalente en generación de imágenes de la temperatura para modelos de texto.

Por qué importa

La escala de guidance es el parámetro más impactante en generación de imágenes después del prompt mismo. Muy bajo y la imagen ignora tu descripción. Muy alto y se ve sobresaturada y artificial. Entender la escala de guidance te ayuda a resolver "¿por qué mi imagen no coincide con mi prompt?" (guidance muy bajo) y "¿por qué mi imagen se ve rara?" (guidance muy alto).

En profundidad

Classifier-free guidance (Ho & Salimans, 2022) funciona calculando dos predicciones de denoising por paso: una condicional (usando tu prompt) y una incondicional (ignorando el prompt). La predicción final amplifica la diferencia: salida = incondicional + escala × (condicional − incondicional). Escala=1 significa sin guidance (solo la predicción condicional). Escala=7 significa que el modelo amplifica la influencia del prompt 7x más allá de lo que haría naturalmente.

Por qué más alto no siempre es mejor

Un guidance más alto hace la imagen más "alineada con el prompt" pero a un costo: el modelo se excede, produciendo colores sobresaturados, iluminación poco realista y artefactos visuales. Un guidance muy alto (15+) a menudo produce imágenes que parecen haber pasado por un filtro de nitidez — técnicamente coincidiendo con el prompt pero estéticamente pobres. El punto ideal depende del modelo: SD 1.5 funciona bien en 7–9, SDXL en 5–8 y Flux en 3–5.

CFG dinámico y negativo

Técnicas avanzadas manipulan el guidance durante la generación: comenzando con guidance alto (para establecer la composición) y reduciéndolo en pasos posteriores (para refinar detalles naturalmente). CFG negativo (escala de guidance por debajo de 1) invierte el efecto del prompt, generando lo opuesto de lo descrito — útil para entender qué asocia el modelo con conceptos específicos pero raramente útil para generación de imágenes real.