Image-to-Image: Definición y significado — Wiki de IA

Generar una nueva imagen basada en una imagen existente más un prompt de texto. En lugar de partir de ruido puro (text-to-image), el proceso de difusión comienza desde una versión ruidosa de la imagen de entrada, preservando su estructura mientras la modifica según el prompt. "Una versión cyberpunk de esta foto" mantiene la composición pero transforma el estilo y los detalles.

Por qué importa

Image-to-image es el puente entre la fotografía y el arte con IA. Te permite usar bocetos, fotos o arte existente como punto de partida, manteniendo el diseño y la composición mientras la IA transforma el estilo, agrega detalles o reimagina el contenido. Es más controlable que text-to-image porque estás guiando el resultado con estructura visual, no solo con palabras.

En profundidad

El mecanismo: toma la imagen de entrada, codifícala al espacio latente (vía el VAE encoder), agrega ruido proporcional a un parámetro de "fuerza de denoising" (0.0 = sin cambios, 1.0 = ruido puro = text-to-image), y luego elimina el ruido condicionado en el prompt de texto. Con fuerza 0.3, el resultado se parece mucho a la entrada con modificaciones sutiles. Con fuerza 0.8, está mayormente reimaginado pero mantiene la composición básica.

Fuerza de denoising

La fuerza de denoising es el parámetro clave: controla cuánto puede desviarse el resultado de la entrada. Fuerza baja (0.2–0.4): cambios menores de estilo, ajustes de color, adiciones sutiles de detalles. Fuerza media (0.5–0.7): transformación significativa del estilo preservando la composición. Fuerza alta (0.8–1.0): reimaginación importante, solo similitud estructural vaga con la entrada. Encontrar la fuerza correcta para tu caso de uso requiere experimentación.

De boceto a imagen

Un flujo de trabajo poderoso de img2img: dibuja un boceto rápido (incluso en MS Paint), úsalo como imagen de entrada con fuerza de denoising media-alta, y describe el resultado deseado. El boceto proporciona la distribución espacial (dónde están los objetos, sus tamaños relativos) mientras la IA completa todo el detalle artístico. Esto hace que la generación de imágenes con IA sea accesible para cualquiera que pueda dibujar una figura de palitos — la composición viene de ti, el renderizado de la IA.