Image-to-Image: Definição e significado — Wiki de IA

Gerar uma nova imagem com base em uma imagem existente mais um prompt de texto. Em vez de começar do ruído puro (text-to-image), o processo de difusão começa de uma versão ruidosa da imagem de entrada, preservando sua estrutura enquanto a modifica de acordo com o prompt. "Uma versão cyberpunk desta foto" mantém a composição mas transforma o estilo e os detalhes.

Por que isso importa

Image-to-image é a ponte entre fotografia e arte com IA. Permite usar esboços, fotos ou artwork existente como ponto de partida, mantendo layout e composição enquanto a IA transforma estilo, adiciona detalhes ou reimagina o conteúdo. É mais controlável que text-to-image porque você está guiando a saída com estrutura visual, não apenas palavras.

Em profundidade

O mecanismo: pegue a imagem de entrada, codifique-a no espaço latente (via o encoder VAE), adicione ruído proporcional a um parâmetro de "intensidade de denoising" (0.0 = sem mudança, 1.0 = ruído puro = text-to-image), então faça o denoising condicionado ao prompt de texto. Com intensidade 0.3, a saída se assemelha de perto à entrada com modificações sutis. Com intensidade 0.8, é amplamente reimaginada mas mantém a composição básica.

Intensidade de Denoising

A intensidade de denoising é o parâmetro-chave: ela controla quanto a saída pode desviar da entrada. Intensidade baixa (0.2–0.4): mudanças sutis de estilo, ajustes de cor, adições sutis de detalhes. Intensidade média (0.5–0.7): transformação significativa de estilo preservando composição. Intensidade alta (0.8–1.0): reimaginação radical, apenas similaridade estrutural vaga com a entrada. Encontrar a intensidade certa para seu caso de uso requer experimentação.

Sketch-to-Image

Um workflow poderoso de img2img: faça um esboço rápido (até no Paint), use-o como imagem de entrada com intensidade média-alta de denoising, e descreva a saída desejada. O esboço fornece layout espacial (onde estão os objetos, seus tamanhos relativos) enquanto a IA preenche todos os detalhes artísticos. Isso torna a geração de imagens com IA acessível a qualquer pessoa que saiba desenhar um boneco palito — a composição vem de você, a renderização da IA.