La perte InfoNCE (utilisée par CLIP et de nombreux modèles d'embedding) : étant donné un lot de N paires positives, traiter les N−1 items non correspondants dans le lot comme exemples négatifs. La perte pousse les embeddings des paires positives plus proches et les embeddings des paires négatives plus loin. L'idée clé : tu n'as pas besoin d'exemples négatifs explicitement étiquetés — les autres items du lot servent de négatifs gratuitement, rendant l'approche très scalable.
En vision, l'apprentissage contrastif crée des paires positives par augmentation de données : deux recadrages aléatoires de la même image sont une paire positive (ils montrent le même contenu sous différents angles). Des images différentes forment les paires négatives. Le modèle apprend que les vues augmentées devraient avoir des embeddings similaires tandis que les images différentes devraient avoir des embeddings différents. Cela apprend des représentations visuelles utiles sans aucun label — de la pure auto-supervision.
Tous les négatifs ne sont pas également utiles pour l'apprentissage. Les "négatifs difficiles" — des items similaires mais non correspondants — fournissent le plus de signal d'apprentissage. Pour une requête sur "les frameworks web Python", un négatif difficile pourrait être un document sur "la science des données Python" (sujet similaire, mauvaise réponse) plutôt qu'un document sur "les recettes de cuisine" (évidemment sans rapport). L'extraction de négatifs difficiles est une technique clé pour entraîner des modèles d'embedding de haute qualité.