ControlNet: Definición y significado — Wiki de IA

Una arquitectura que agrega control espacial a los modelos de generación de imágenes. En lugar de solo describir lo que quieres en texto ("una persona de pie"), ControlNet te permite especificar cómo — proporcionando un mapa de bordes, mapa de profundidad, esqueleto de pose o mapa de segmentación que guía la composición. La imagen generada sigue la estructura espacial de tu entrada de control mientras llena los detalles a partir del prompt de texto.

Por qué importa

ControlNet hizo que la generación de imágenes con IA fuera utilizable para flujos de trabajo profesionales. Sin él, obtienes composiciones aleatorias y esperas lo mejor. Con él, especificas la pose, distribución o estructura exacta que necesitas. Esta es la diferencia entre "generar algo vagamente parecido a lo que quiero" y "generar exactamente esta composición con estos detalles" — algo crítico para diseño, publicidad y trabajo de producción.

En profundidad

ControlNet (Zhang et al., 2023) funciona creando una copia entrenable del codificador del modelo de difusión y conectándola al modelo original mediante capas de convolución inicializadas a cero. La señal de control (mapa de bordes, pose, profundidad) es procesada por esta copia, y las características se agregan a las capas correspondientes del modelo principal. La inicialización a cero significa que el control comienza sin efecto y aprende gradualmente a guiar la generación durante el entrenamiento, preservando la calidad del modelo original.

Tipos de control

Entradas de control comunes: bordes Canny (estructura de contorno), OpenPose (pose del cuerpo humano), mapas de profundidad (estructura 3D), mapas de segmentación (qué región es qué), mapas de normales (orientación de superficie) y garabatos (bocetos aproximados). Cada tipo de control requiere un ControlNet entrenado por separado. Se pueden combinar múltiples controles: un esqueleto de pose más un mapa de bordes te da tanto la posición corporal como los detalles estructurales.

IP-Adapter y más allá

Más allá del control espacial, técnicas como IP-Adapter proporcionan control de estilo: da una imagen de referencia y genera nuevas imágenes en el mismo estilo. T2I-Adapter es una alternativa más ligera a ControlNet que logra un control similar con menos parámetros. La tendencia es hacia un control cada vez más preciso y componible — especificando exactamente lo que quieres a través de una combinación de texto, guías espaciales, referencias de estilo y refinamiento iterativo.

ControlNet

Por qué importa

En profundidad

Tipos de control

IP-Adapter y más allá

Conceptos relacionados