O mecanismo: pegue a imagem de entrada, codifique-a no espaço latente (via o encoder VAE), adicione ruído proporcional a um parâmetro de "intensidade de denoising" (0.0 = sem mudança, 1.0 = ruído puro = text-to-image), então faça o denoising condicionado ao prompt de texto. Com intensidade 0.3, a saída se assemelha de perto à entrada com modificações sutis. Com intensidade 0.8, é amplamente reimaginada mas mantém a composição básica.
A intensidade de denoising é o parâmetro-chave: ela controla quanto a saída pode desviar da entrada. Intensidade baixa (0.2–0.4): mudanças sutis de estilo, ajustes de cor, adições sutis de detalhes. Intensidade média (0.5–0.7): transformação significativa de estilo preservando composição. Intensidade alta (0.8–1.0): reimaginação radical, apenas similaridade estrutural vaga com a entrada. Encontrar a intensidade certa para seu caso de uso requer experimentação.
Um workflow poderoso de img2img: faça um esboço rápido (até no Paint), use-o como imagem de entrada com intensidade média-alta de denoising, e descreva a saída desejada. O esboço fornece layout espacial (onde estão os objetos, seus tamanhos relativos) enquanto a IA preenche todos os detalhes artísticos. Isso torna a geração de imagens com IA acessível a qualquer pessoa que saiba desenhar um boneco palito — a composição vem de você, a renderização da IA.