ControlNet: Definição e significado — Wiki de IA

Uma arquitetura que adiciona controle espacial a modelos de geração de imagem. Em vez de apenas descrever o que você quer em texto ("uma pessoa em pé"), ControlNet permite especificar como — fornecendo um mapa de bordas, mapa de profundidade, esqueleto de pose ou mapa de segmentação que guia a composição. A imagem gerada segue a estrutura espacial da sua entrada de controle enquanto preenche detalhes a partir do prompt de texto.

Por que isso importa

ControlNet tornou a geração de imagens com IA utilizável para fluxos de trabalho profissionais. Sem ele, você obtém composições aleatórias e torce pelo melhor. Com ele, você especifica a pose, layout ou estrutura exata que precisa. Essa é a diferença entre "gere algo vagamente parecido com o que eu quero" e "gere exatamente esta composição com estes detalhes" — crítico para design, publicidade e trabalho de produção.

Em profundidade

ControlNet (Zhang et al., 2023) funciona criando uma cópia treinável do encoder do modelo de difusão e conectando-a ao modelo original via camadas de convolução inicializadas em zero. O sinal de controle (mapa de bordas, pose, profundidade) é processado por essa cópia, e as features são adicionadas às camadas correspondentes do modelo principal. A inicialização em zero significa que o controle começa sem efeito e gradualmente aprende a guiar a geração durante o treinamento, preservando a qualidade do modelo original.

Tipos de Controle

Entradas de controle comuns: bordas Canny (estrutura de contorno), OpenPose (pose do corpo humano), mapas de profundidade (estrutura 3D), mapas de segmentação (qual região é o quê), mapas de normais (orientação de superfície) e rabiscos (esboços aproximados). Cada tipo de controle requer um ControlNet treinado separadamente. Múltiplos controles podem ser combinados: um esqueleto de pose mais um mapa de bordas fornece tanto posição corporal quanto detalhes estruturais.

IP-Adapter e Além

Além do controle espacial, técnicas como IP-Adapter fornecem controle de estilo: dê uma imagem de referência e gere novas imagens no mesmo estilo. T2I-Adapter é uma alternativa mais leve ao ControlNet que alcança controle similar com menos parâmetros. A tendência é em direção a controle cada vez mais preciso e componível — especificando exatamente o que você quer através de uma combinação de texto, guias espaciais, referências de estilo e refinamento iterativo.

ControlNet

Por que isso importa

Em profundidade

Tipos de Controle

IP-Adapter e Além

Conceitos relacionados