Zubnet AIसीखेंWiki › ControlNet
मॉडल

ControlNet

एक आर्किटेक्चर जो इमेज जनरेशन मॉडल में स्थानिक नियंत्रण जोड़ता है। केवल टेक्स्ट में वर्णन करने के बजाय कि आप क्या चाहते हैं ("एक व्यक्ति खड़ा है"), ControlNet आपको यह निर्दिष्ट करने देता है कि कैसे — एक edge map, depth map, pose skeleton, या segmentation map प्रदान करके जो composition को निर्देशित करता है। उत्पन्न इमेज आपके control इनपुट की स्थानिक संरचना का पालन करती है जबकि टेक्स्ट प्रॉम्प्ट से विवरण भरती है।

यह क्यों मायने रखता है

ControlNet ने AI इमेज जनरेशन को पेशेवर कार्यप्रवाहों के लिए उपयोग योग्य बनाया। इसके बिना, आप यादृच्छिक compositions प्राप्त करते हैं और सर्वश्रेष्ठ की आशा करते हैं। इसके साथ, आप ठीक वही pose, layout, या संरचना निर्दिष्ट करते हैं जिसकी आपको आवश्यकता है। यह "मोटे तौर पर मैं जो चाहता हूं वैसा कुछ उत्पन्न करें" और "इन विवरणों के साथ ठीक यह composition उत्पन्न करें" के बीच का अंतर है — डिज़ाइन, विज्ञापन, और उत्पादन कार्य के लिए महत्वपूर्ण।

गहन अध्ययन

ControlNet (Zhang et al., 2023) diffusion मॉडल के encoder की एक प्रशिक्षण योग्य प्रति बनाकर और इसे zero-initialized convolution लेयर्स के माध्यम से मूल मॉडल से जोड़कर काम करता है। Control सिग्नल (edge map, pose, depth) इस प्रति द्वारा प्रोसेस किया जाता है, और features मुख्य मॉडल की संबंधित लेयर्स में जोड़े जाते हैं। Zero initialization का अर्थ है कि control बिना प्रभाव के शुरू होता है और प्रशिक्षण के दौरान धीरे-धीरे जनरेशन को निर्देशित करना सीखता है, मूल मॉडल की गुणवत्ता को संरक्षित करते हुए।

Control प्रकार

सामान्य control इनपुट: Canny edges (रूपरेखा संरचना), OpenPose (मानव शरीर की pose), depth maps (3D संरचना), segmentation maps (कौन सा क्षेत्र क्या है), normal maps (सतह अभिविन्यास), और scribbles (मोटे स्केच)। प्रत्येक control प्रकार के लिए अलग से प्रशिक्षित ControlNet की आवश्यकता होती है। कई controls को संयोजित किया जा सकता है: एक pose skeleton प्लस एक edge map आपको शरीर की स्थिति और संरचनात्मक विवरण दोनों देता है।

IP-Adapter और उससे आगे

स्थानिक नियंत्रण से परे, IP-Adapter जैसी तकनीकें शैली नियंत्रण प्रदान करती हैं: एक संदर्भ इमेज दें और उसी शैली में नई इमेज उत्पन्न करें। T2I-Adapter ControlNet का एक हल्का विकल्प है जो कम पैरामीटर के साथ समान नियंत्रण प्राप्त करता है। रुझान तेज़ी से सटीक, composable नियंत्रण की ओर है — टेक्स्ट, स्थानिक गाइड, शैली संदर्भ, और पुनरावर्ती परिशोधन के संयोजन के माध्यम से ठीक वही निर्दिष्ट करना जो आप चाहते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Contrastive Learning Convolution →