模型

ControlNet

別名：控制網路

一種為圖像生成模型增加空間控制的架構。ControlNet 不是只用文字描述你想要什麼（「一個人站著」），而是讓你指定怎麼做 — 提供邊緣圖、深度圖、姿態骨架或分割圖來引導構圖。生成的圖像會遵循控制輸入的空間結構，同時根據文字提示填充細節。

為什麼重要

ControlNet 使 AI 圖像生成能被專業工作流程使用。沒有它，你只能得到隨機構圖並期待最好的結果。有了它，你可以指定所需的確切姿態、佈局或結構。這就是「生成大致像我想要的東西」和「生成具有這些細節的確切構圖」之間的差異 — 這對於設計、廣告和製作工作至關重要。

深度解析

ControlNet（Zhang 等人，2023 年）的工作方式是建立擴散模型編碼器的可訓練副本，並透過零初始化卷積層將其連接到原始模型。控制訊號（邊緣圖、姿態、深度）由這個副本處理，特徵被加到主模型的對應層。零初始化意味著控制一開始沒有效果，在訓練過程中逐漸學習引導生成，保留了原始模型的品質。

控制類型

常見的控制輸入：Canny 邊緣（輪廓結構）、OpenPose（人體姿態）、深度圖（3D 結構）、分割圖（哪個區域是什麼）、法線圖（表面方向）和塗鴉（粗略草圖）。每種控制類型需要單獨訓練的 ControlNet。可以組合多種控制：姿態骨架加邊緣圖同時給你身體位置和結構細節。

IP-Adapter 及更多

除了空間控制之外，IP-Adapter 等技術提供風格控制：給一張參考圖像，生成相同風格的新圖像。T2I-Adapter 是 ControlNet 的輕量替代方案，以更少的參數實現類似的控制。趨勢是朝向越來越精確、可組合的控制 — 透過文字、空間引導、風格參考和迭代精修的組合來精確指定你想要的。

相關概念

← 所有術語

← Contamination Copyright in AI（AI 著作權） →