La transferencia de estilo neural original (Gatys et al., 2015) funciona optimizando una imagen para que coincida simultáneamente con las características de contenido de una imagen y las características de estilo (textura, patrones de color) de otra. El contenido se captura mediante activaciones de capas profundas (que representan objetos y estructura). El estilo se captura mediante matrices de Gram de activaciones de capas tempranas/medias (que representan texturas y patrones independientes de la disposición espacial).
El método original es lento (minutos por imagen, optimizando píxeles iterativamente). Fast style transfer entrena una red feedforward para aplicar un estilo específico en un solo paso hacia adelante (milisegundos). La desventaja: cada red solo hace un estilo. AdaIN (Adaptive Instance Normalization) resolvió esto ajustando estadísticas de normalización para coincidir con cualquier estilo de referencia, permitiendo transferencia de estilo arbitraria en tiempo real.
Hoy, la transferencia de estilo está mayormente absorbida por modelos de generación de imágenes. ControlNet con referencias de estilo, IP-Adapter para condicionamiento de estilo y prompting directo ("al estilo de pintura de acuarela") logran una transferencia de estilo más flexible y de mayor calidad que las redes dedicadas. Pero la idea central — que las redes neuronales separan contenido de estilo en diferentes capas — sigue siendo fundamental para entender representaciones visuales.