Le transfert de style neuronal original (Gatys et al., 2015) fonctionne en optimisant une image pour qu'elle corresponde simultanément aux caractéristiques de contenu d'une image et aux caractéristiques de style (texture, motifs de couleur) d'une autre. Le contenu est capturé par les activations des couches profondes (qui représentent les objets et la structure). Le style est capturé par les matrices de Gram des activations des couches précoces/intermédiaires (qui représentent les textures et motifs indépendamment de l'arrangement spatial).
La méthode originale est lente (plusieurs minutes par image, optimisation itérative des pixels). Le transfert de style rapide entraîne un réseau feedforward pour appliquer un style spécifique en une seule passe forward (millisecondes). Le compromis : chaque réseau ne fait qu'un seul style. AdaIN (Adaptive Instance Normalization) a résolu ce problème en ajustant les statistiques de normalisation pour correspondre à n'importe quel style de référence, permettant le transfert de style arbitraire en temps réel.
Aujourd'hui, le transfert de style est largement absorbé par les modèles de génération d'images. ControlNet avec des références de style, IP-Adapter pour le conditionnement de style, et le prompting direct (« dans le style d'une peinture aquarelle ») obtiennent un transfert de style plus flexible et de meilleure qualité que les réseaux dédiés. Mais l'insight fondamental — que les réseaux de neurones séparent contenu et style à différentes couches — reste une base pour comprendre les représentations visuelles.