Zubnet AI學習Wiki › ControlNet
模型

ControlNet

別名:控制網路

一種為圖像生成模型增加空間控制的架構。ControlNet 不是只用文字描述你想要什麼(「一個人站著」),而是讓你指定怎麼做 — 提供邊緣圖、深度圖、姿態骨架或分割圖來引導構圖。生成的圖像會遵循控制輸入的空間結構,同時根據文字提示填充細節。

為什麼重要

ControlNet 使 AI 圖像生成能被專業工作流程使用。沒有它,你只能得到隨機構圖並期待最好的結果。有了它,你可以指定所需的確切姿態、佈局或結構。這就是「生成大致像我想要的東西」和「生成具有這些細節的確切構圖」之間的差異 — 這對於設計、廣告和製作工作至關重要。

深度解析

ControlNet(Zhang 等人,2023 年)的工作方式是建立擴散模型編碼器的可訓練副本,並透過零初始化卷積層將其連接到原始模型。控制訊號(邊緣圖、姿態、深度)由這個副本處理,特徵被加到主模型的對應層。零初始化意味著控制一開始沒有效果,在訓練過程中逐漸學習引導生成,保留了原始模型的品質。

控制類型

常見的控制輸入:Canny 邊緣(輪廓結構)、OpenPose(人體姿態)、深度圖(3D 結構)、分割圖(哪個區域是什麼)、法線圖(表面方向)和塗鴉(粗略草圖)。每種控制類型需要單獨訓練的 ControlNet。可以組合多種控制:姿態骨架加邊緣圖同時給你身體位置和結構細節。

IP-Adapter 及更多

除了空間控制之外,IP-Adapter 等技術提供風格控制:給一張參考圖像,生成相同風格的新圖像。T2I-Adapter 是 ControlNet 的輕量替代方案,以更少的參數實現類似的控制。趨勢是朝向越來越精確、可組合的控制 — 透過文字、空間引導、風格參考和迭代精修的組合來精確指定你想要的。

相關概念

← 所有術語
← Contamination Copyright in AI(AI 著作權) →