ControlNet (Zhang et al., 2023) funciona criando uma cópia treinável do encoder do modelo de difusão e conectando-a ao modelo original via camadas de convolução inicializadas em zero. O sinal de controle (mapa de bordas, pose, profundidade) é processado por essa cópia, e as features são adicionadas às camadas correspondentes do modelo principal. A inicialização em zero significa que o controle começa sem efeito e gradualmente aprende a guiar a geração durante o treinamento, preservando a qualidade do modelo original.
Entradas de controle comuns: bordas Canny (estrutura de contorno), OpenPose (pose do corpo humano), mapas de profundidade (estrutura 3D), mapas de segmentação (qual região é o quê), mapas de normais (orientação de superfície) e rabiscos (esboços aproximados). Cada tipo de controle requer um ControlNet treinado separadamente. Múltiplos controles podem ser combinados: um esqueleto de pose mais um mapa de bordas fornece tanto posição corporal quanto detalhes estruturais.
Além do controle espacial, técnicas como IP-Adapter fornecem controle de estilo: dê uma imagem de referência e gere novas imagens no mesmo estilo. T2I-Adapter é uma alternativa mais leve ao ControlNet que alcança controle similar com menos parâmetros. A tendência é em direção a controle cada vez mais preciso e componível — especificando exatamente o que você quer através de uma combinação de texto, guias espaciais, referências de estilo e refinamento iterativo.