ControlNet (Zhang et al., 2023) diffusion मॉडल के encoder की एक प्रशिक्षण योग्य प्रति बनाकर और इसे zero-initialized convolution लेयर्स के माध्यम से मूल मॉडल से जोड़कर काम करता है। Control सिग्नल (edge map, pose, depth) इस प्रति द्वारा प्रोसेस किया जाता है, और features मुख्य मॉडल की संबंधित लेयर्स में जोड़े जाते हैं। Zero initialization का अर्थ है कि control बिना प्रभाव के शुरू होता है और प्रशिक्षण के दौरान धीरे-धीरे जनरेशन को निर्देशित करना सीखता है, मूल मॉडल की गुणवत्ता को संरक्षित करते हुए।
सामान्य control इनपुट: Canny edges (रूपरेखा संरचना), OpenPose (मानव शरीर की pose), depth maps (3D संरचना), segmentation maps (कौन सा क्षेत्र क्या है), normal maps (सतह अभिविन्यास), और scribbles (मोटे स्केच)। प्रत्येक control प्रकार के लिए अलग से प्रशिक्षित ControlNet की आवश्यकता होती है। कई controls को संयोजित किया जा सकता है: एक pose skeleton प्लस एक edge map आपको शरीर की स्थिति और संरचनात्मक विवरण दोनों देता है।
स्थानिक नियंत्रण से परे, IP-Adapter जैसी तकनीकें शैली नियंत्रण प्रदान करती हैं: एक संदर्भ इमेज दें और उसी शैली में नई इमेज उत्पन्न करें। T2I-Adapter ControlNet का एक हल्का विकल्प है जो कम पैरामीटर के साथ समान नियंत्रण प्राप्त करता है। रुझान तेज़ी से सटीक, composable नियंत्रण की ओर है — टेक्स्ट, स्थानिक गाइड, शैली संदर्भ, और पुनरावर्ती परिशोधन के संयोजन के माध्यम से ठीक वही निर्दिष्ट करना जो आप चाहते हैं।