ControlNet (Zhang et al., 2023) funciona creando una copia entrenable del codificador del modelo de difusión y conectándola al modelo original mediante capas de convolución inicializadas a cero. La señal de control (mapa de bordes, pose, profundidad) es procesada por esta copia, y las características se agregan a las capas correspondientes del modelo principal. La inicialización a cero significa que el control comienza sin efecto y aprende gradualmente a guiar la generación durante el entrenamiento, preservando la calidad del modelo original.
Entradas de control comunes: bordes Canny (estructura de contorno), OpenPose (pose del cuerpo humano), mapas de profundidad (estructura 3D), mapas de segmentación (qué región es qué), mapas de normales (orientación de superficie) y garabatos (bocetos aproximados). Cada tipo de control requiere un ControlNet entrenado por separado. Se pueden combinar múltiples controles: un esqueleto de pose más un mapa de bordes te da tanto la posición corporal como los detalles estructurales.
Más allá del control espacial, técnicas como IP-Adapter proporcionan control de estilo: da una imagen de referencia y genera nuevas imágenes en el mismo estilo. T2I-Adapter es una alternativa más ligera a ControlNet que logra un control similar con menos parámetros. La tendencia es hacia un control cada vez más preciso y componible — especificando exactamente lo que quieres a través de una combinación de texto, guías espaciales, referencias de estilo y refinamiento iterativo.