最初的神经风格迁移(Gatys等人,2015年)通过优化一张图像,使其同时匹配一张图像的内容特征和另一张图像的风格特征(纹理、色彩模式)来工作。内容由深层激活(表示物体和结构)捕获。风格由早期/中间层激活的Gram矩阵(表示与空间排列无关的纹理和模式)捕获。
原始方法速度较慢(每张图像需数分钟,逐像素迭代优化)。快速风格迁移训练一个前馈网络,在单次前向传递中应用特定风格(毫秒级)。代价是:每个网络只能处理一种风格。AdaIN(自适应实例归一化)通过调整归一化统计量来匹配任意参考风格,解决了这一问题,实现了实时的任意风格迁移。
如今,风格迁移在很大程度上已被图像生成模型所取代。使用风格参考的ControlNet、用于风格调节的IP-Adapter,以及直接提示(“以水彩画的风格”)比专用的风格迁移网络实现了更灵活、更高质量的风格迁移。但核心洞见——神经网络在不同层分离内容与风格——仍然是理解视觉表示的基础。