A neural style transfer original (Gatys et al., 2015) funciona otimizando uma imagem para corresponder simultaneamente às features de conteúdo de uma imagem e às features de estilo (textura, padrões de cor) de outra. O conteúdo é capturado pelas ativações de camadas profundas (que representam objetos e estrutura). O estilo é capturado por matrizes de Gram das ativações de camadas iniciais/intermediárias (que representam texturas e padrões independentes de arranjo espacial).
O método original é lento (minutos por imagem, otimizando pixels iterativamente). A fast style transfer treina uma rede feedforward para aplicar um estilo específico em uma única passada (milissegundos). O trade-off: cada rede faz apenas um estilo. AdaIN (Adaptive Instance Normalization) resolveu isso ajustando estatísticas de normalização para corresponder a qualquer estilo de referência, permitindo transferência de estilo arbitrária em tempo real.
Hoje, a transferência de estilo é em grande parte absorvida por modelos de geração de imagens. ControlNet com referências de estilo, IP-Adapter para condicionamento de estilo e prompting direto ("no estilo de pintura aquarela") alcançam transferência de estilo mais flexível e de maior qualidade do que redes dedicadas. Mas o insight central — que redes neurais separam conteúdo de estilo em diferentes camadas — permanece fundamental para entender representações visuais.