El mecanismo: toma la imagen de entrada, codifícala al espacio latente (vía el VAE encoder), agrega ruido proporcional a un parámetro de "fuerza de denoising" (0.0 = sin cambios, 1.0 = ruido puro = text-to-image), y luego elimina el ruido condicionado en el prompt de texto. Con fuerza 0.3, el resultado se parece mucho a la entrada con modificaciones sutiles. Con fuerza 0.8, está mayormente reimaginado pero mantiene la composición básica.
La fuerza de denoising es el parámetro clave: controla cuánto puede desviarse el resultado de la entrada. Fuerza baja (0.2–0.4): cambios menores de estilo, ajustes de color, adiciones sutiles de detalles. Fuerza media (0.5–0.7): transformación significativa del estilo preservando la composición. Fuerza alta (0.8–1.0): reimaginación importante, solo similitud estructural vaga con la entrada. Encontrar la fuerza correcta para tu caso de uso requiere experimentación.
Un flujo de trabajo poderoso de img2img: dibuja un boceto rápido (incluso en MS Paint), úsalo como imagen de entrada con fuerza de denoising media-alta, y describe el resultado deseado. El boceto proporciona la distribución espacial (dónde están los objetos, sus tamaños relativos) mientras la IA completa todo el detalle artístico. Esto hace que la generación de imágenes con IA sea accesible para cualquiera que pueda dibujar una figura de palitos — la composición viene de ti, el renderizado de la IA.