ControlNet使AI图像生成可用于专业工作流程。没有它,你只能获得随机构图然后祈祷好运。有了它,你可以指定所需的精确姿态、布局或结构。这就是"生成大致符合我想要的东西"与"生成精确这个构图和这些细节"之间的区别——对设计、广告和制作工作至关重要。
ControlNet(Zhang et al., 2023)通过创建扩散模型编码器的可训练副本,并通过零初始化卷积层将其连接到原始模型来工作。控制信号(边缘图、姿态、深度)由此副本处理,特征被添加到主模型的对应层。零初始化意味着控制一开始没有效果,在训练过程中逐渐学会引导生成,保持原始模型的质量。
常见的控制输入:Canny边缘(轮廓结构)、OpenPose(人体姿态)、深度图(3D结构)、分割图(哪个区域是什么)、法线图(表面朝向)和涂鸦(粗略草图)。每种控制类型需要单独训练的ControlNet。可以组合多种控制:姿态骨架加边缘图同时提供身体位置和结构细节。
除了空间控制,IP-Adapter等技术提供风格控制:给出参考图像并以相同风格生成新图像。T2I-Adapter是ControlNet的更轻量替代方案,以更少的参数实现类似的控制。趋势是越来越精确、可组合的控制——通过文本、空间引导、风格参考和迭代细化的组合精确指定你想要什么。