模型

ControlNet

一种为图像生成模型添加空间控制的架构。ControlNet不仅让你用文本描述想要什么（"一个站着的人"），还让你指定如何实现——提供边缘图、深度图、姿态骨架或分割图来引导构图。生成的图像遵循控制输入的空间结构，同时根据文本提示填充细节。

为什么重要

ControlNet使AI图像生成可用于专业工作流程。没有它，你只能获得随机构图然后祈祷好运。有了它，你可以指定所需的精确姿态、布局或结构。这就是"生成大致符合我想要的东西"与"生成精确这个构图和这些细节"之间的区别——对设计、广告和制作工作至关重要。

深度解析

ControlNet（Zhang et al., 2023）通过创建扩散模型编码器的可训练副本，并通过零初始化卷积层将其连接到原始模型来工作。控制信号（边缘图、姿态、深度）由此副本处理，特征被添加到主模型的对应层。零初始化意味着控制一开始没有效果，在训练过程中逐渐学会引导生成，保持原始模型的质量。

控制类型

常见的控制输入：Canny边缘（轮廓结构）、OpenPose（人体姿态）、深度图（3D结构）、分割图（哪个区域是什么）、法线图（表面朝向）和涂鸦（粗略草图）。每种控制类型需要单独训练的ControlNet。可以组合多种控制：姿态骨架加边缘图同时提供身体位置和结构细节。

IP-Adapter及其他

除了空间控制，IP-Adapter等技术提供风格控制：给出参考图像并以相同风格生成新图像。T2I-Adapter是ControlNet的更轻量替代方案，以更少的参数实现类似的控制。趋势是越来越精确、可组合的控制——通过文本、空间引导、风格参考和迭代细化的组合精确指定你想要什么。

相关概念

← 所有术语

← Contamination Cursor →