Apprentissage contrastif : Définition et signification — Wiki IA

Une approche d'apprentissage auto-supervisé qui entraîne les modèles en contrastant des paires positives (items similaires qui devraient être proches dans l'espace d'embedding) avec des paires négatives (items dissimilaires qui devraient être éloignés). CLIP contraste les paires image-texte correspondantes avec les non correspondantes. SimCLR contraste les vues augmentées de la même image avec les vues d'images différentes. Le modèle apprend des représentations où la similarité dans l'espace d'embedding reflète la similarité du monde réel.

Pourquoi c'est important

L'apprentissage contrastif est la façon dont la plupart des modèles d'embedding sont entraînés — les modèles qui alimentent la recherche sémantique, le RAG et les recommandations. C'est aussi l'approche d'entraînement derrière CLIP, qui connecte le langage et la vision. Chaque fois que tu utilises des embeddings pour mesurer la similarité, l'apprentissage contrastif est probablement la façon dont ces embeddings ont été créés.

En profondeur

La perte InfoNCE (utilisée par CLIP et de nombreux modèles d'embedding) : étant donné un lot de N paires positives, traiter les N−1 items non correspondants dans le lot comme exemples négatifs. La perte pousse les embeddings des paires positives plus proches et les embeddings des paires négatives plus loin. L'idée clé : tu n'as pas besoin d'exemples négatifs explicitement étiquetés — les autres items du lot servent de négatifs gratuitement, rendant l'approche très scalable.

L'augmentation de données comme supervision

En vision, l'apprentissage contrastif crée des paires positives par augmentation de données : deux recadrages aléatoires de la même image sont une paire positive (ils montrent le même contenu sous différents angles). Des images différentes forment les paires négatives. Le modèle apprend que les vues augmentées devraient avoir des embeddings similaires tandis que les images différentes devraient avoir des embeddings différents. Cela apprend des représentations visuelles utiles sans aucun label — de la pure auto-supervision.

Négatifs difficiles

Tous les négatifs ne sont pas également utiles pour l'apprentissage. Les "négatifs difficiles" — des items similaires mais non correspondants — fournissent le plus de signal d'apprentissage. Pour une requête sur "les frameworks web Python", un négatif difficile pourrait être un document sur "la science des données Python" (sujet similaire, mauvaise réponse) plutôt qu'un document sur "les recettes de cuisine" (évidemment sans rapport). L'extraction de négatifs difficiles est une technique clé pour entraîner des modèles d'embedding de haute qualité.

Apprentissage contrastif

Pourquoi c'est important

En profondeur

L'augmentation de données comme supervision

Négatifs difficiles

Concepts connexes