CLIP: परिभाषा और अर्थ — AI विकी

OpenAI (2021) का एक मॉडल जो 400 मिलियन इमेज-कैप्शन जोड़ों पर प्रशिक्षण लेकर इमेज और टेक्स्ट को जोड़ना सीखता है। CLIP इमेज और टेक्स्ट को एक ही embedding स्पेस में एन्कोड करता है, जहां मिलान इमेज-टेक्स्ट जोड़े एक-दूसरे के करीब होते हैं और बेमेल जोड़े दूर होते हैं। यह अधिकांश आधुनिक मल्टीमोडल AI सिस्टम में भाषा और दृष्टि के बीच पुल है।

यह क्यों मायने रखता है

CLIP टेक्स्ट-टू-इमेज जनरेशन (Stable Diffusion, DALL-E), इमेज सर्च, ज़ीरो-शॉट इमेज क्लासिफ़िकेशन, और मल्टीमोडल समझ की रीढ़ है। जब आप एक प्रॉम्प्ट टाइप करते हैं और एक इमेज प्राप्त करते हैं, तो CLIP (या एक वंशज) वह है जो आपके शब्दों को दृश्य अवधारणाओं से जोड़ता है। इसने साबित किया कि आप बिना लेबल किए गए इमेज डेटासेट के, केवल प्राकृतिक भाषा पर्यवेक्षण से शक्तिशाली दृश्य प्रतिनिधित्व सीख सकते हैं।

गहन अध्ययन

CLIP दो एन्कोडर को एक साथ प्रशिक्षित करता है: एक टेक्स्ट एन्कोडर (Transformer) और एक इमेज एन्कोडर (ViT या ResNet)। प्रशिक्षण के दौरान, N इमेज-कैप्शन जोड़ों के एक बैच से N टेक्स्ट embeddings और N इमेज embeddings उत्पन्न होते हैं। प्रशिक्षण उद्देश्य N सही जोड़ों के लिए cosine similarity को अधिकतम करता है जबकि N²−N गलत जोड़ों के लिए इसे न्यूनतम करता है। यह contrastive उद्देश्य दोनों एन्कोडर को संरेखित प्रतिनिधित्व उत्पन्न करना सिखाता है।

ज़ीरो-शॉट क्लासिफ़िकेशन

CLIP उन श्रेणियों में इमेज को वर्गीकृत कर सकता है जिन पर इसे स्पष्ट रूप से कभी प्रशिक्षित नहीं किया गया। एक इमेज को "cat" या "dog" के रूप में वर्गीकृत करने के लिए, "a photo of a cat" और "a photo of a dog" टेक्स्ट को एन्कोड करें, इमेज को एन्कोड करें, और इमेज के साथ उच्च cosine similarity वाले टेक्स्ट को चुनें। यह ज़ीरो-शॉट क्षमता क्रांतिकारी थी: एक ही मॉडल टेक्स्ट लेबल बदलकर किसी भी क्लासिफ़िकेशन कार्य को संभाल सकता था, बिना किसी कार्य-विशिष्ट प्रशिक्षण डेटा के।

Diffusion मॉडल में CLIP

टेक्स्ट-टू-इमेज मॉडल में, CLIP का टेक्स्ट एन्कोडर आपके प्रॉम्प्ट को embeddings में बदलता है जो cross-attention के माध्यम से इमेज जनरेशन को निर्देशित करते हैं। CLIP की टेक्स्ट समझ की गुणवत्ता सीधे प्रभावित करती है कि इमेज आपके प्रॉम्प्ट से कितनी अच्छी तरह मेल खाती है। नए मॉडल CLIP के साथ या इसके बजाय मजबूत टेक्स्ट एन्कोडर (T5, जो compositional भाषा को बेहतर समझता है) का उपयोग करते हैं, जटिल विवरणों के लिए प्रॉम्प्ट फ़ॉलोइंग में सुधार करते हैं। लेकिन CLIP का इमेज एन्कोडर इमेज समझ के कार्यों के लिए व्यापक रूप से उपयोग किया जाता रहता है।

CLIP

यह क्यों मायने रखता है

गहन अध्ययन

ज़ीरो-शॉट क्लासिफ़िकेशन

Diffusion मॉडल में CLIP

संबंधित अवधारणाएँ