CLIP दो एन्कोडर को एक साथ प्रशिक्षित करता है: एक टेक्स्ट एन्कोडर (Transformer) और एक इमेज एन्कोडर (ViT या ResNet)। प्रशिक्षण के दौरान, N इमेज-कैप्शन जोड़ों के एक बैच से N टेक्स्ट embeddings और N इमेज embeddings उत्पन्न होते हैं। प्रशिक्षण उद्देश्य N सही जोड़ों के लिए cosine similarity को अधिकतम करता है जबकि N²−N गलत जोड़ों के लिए इसे न्यूनतम करता है। यह contrastive उद्देश्य दोनों एन्कोडर को संरेखित प्रतिनिधित्व उत्पन्न करना सिखाता है।
CLIP उन श्रेणियों में इमेज को वर्गीकृत कर सकता है जिन पर इसे स्पष्ट रूप से कभी प्रशिक्षित नहीं किया गया। एक इमेज को "cat" या "dog" के रूप में वर्गीकृत करने के लिए, "a photo of a cat" और "a photo of a dog" टेक्स्ट को एन्कोड करें, इमेज को एन्कोड करें, और इमेज के साथ उच्च cosine similarity वाले टेक्स्ट को चुनें। यह ज़ीरो-शॉट क्षमता क्रांतिकारी थी: एक ही मॉडल टेक्स्ट लेबल बदलकर किसी भी क्लासिफ़िकेशन कार्य को संभाल सकता था, बिना किसी कार्य-विशिष्ट प्रशिक्षण डेटा के।
टेक्स्ट-टू-इमेज मॉडल में, CLIP का टेक्स्ट एन्कोडर आपके प्रॉम्प्ट को embeddings में बदलता है जो cross-attention के माध्यम से इमेज जनरेशन को निर्देशित करते हैं। CLIP की टेक्स्ट समझ की गुणवत्ता सीधे प्रभावित करती है कि इमेज आपके प्रॉम्प्ट से कितनी अच्छी तरह मेल खाती है। नए मॉडल CLIP के साथ या इसके बजाय मजबूत टेक्स्ट एन्कोडर (T5, जो compositional भाषा को बेहतर समझता है) का उपयोग करते हैं, जटिल विवरणों के लिए प्रॉम्प्ट फ़ॉलोइंग में सुधार करते हैं। लेकिन CLIP का इमेज एन्कोडर इमेज समझ के कार्यों के लिए व्यापक रूप से उपयोग किया जाता रहता है।