InfoNCE loss (CLIP और कई embedding मॉडलों द्वारा उपयोग किया गया): N positive pairs का एक बैच दिया गया, बैच में N−1 बेमेल आइटम को negative उदाहरणों के रूप में मानें। Loss positive pair embeddings को करीब और negative pair embeddings को दूर धकेलता है। मुख्य अंतर्दृष्टि: आपको स्पष्ट रूप से लेबल किए गए negative उदाहरणों की आवश्यकता नहीं — बैच में अन्य आइटम मुफ़्त में negatives के रूप में काम करते हैं, जो दृष्टिकोण को अत्यधिक scalable बनाता है।
विज़न में, contrastive learning data augmentation के माध्यम से positive pairs बनाता है: एक ही इमेज के दो यादृच्छिक crops एक positive pair हैं (वे विभिन्न दृष्टिकोणों से एक ही content दिखाते हैं)। विभिन्न इमेज negative pairs बनाती हैं। मॉडल सीखता है कि augmented दृश्यों में समान embeddings होनी चाहिए जबकि विभिन्न इमेज में अलग embeddings होनी चाहिए। यह बिना किसी लेबल के उपयोगी दृश्य प्रतिनिधित्व सीखता है — शुद्ध self-supervision।
सभी negatives सीखने के लिए समान रूप से उपयोगी नहीं हैं। "Hard negatives" — ऐसे आइटम जो समान हैं लेकिन मिलान नहीं करते — सबसे अधिक सीखने का सिग्नल प्रदान करते हैं। "Python web frameworks" के बारे में एक query के लिए, एक hard negative "Python data science" (समान विषय, गलत उत्तर) के बारे में एक दस्तावेज़ हो सकता है बजाय "cooking recipes" (स्पष्ट रूप से अप्रासंगिक) के बारे में एक दस्तावेज़ के। Hard negatives को mine करना उच्च-गुणवत्ता embedding मॉडल प्रशिक्षित करने के लिए एक मुख्य तकनीक है।