CLIP : Définition et signification — Wiki IA

Un modèle d'OpenAI (2021) qui apprend à connecter images et texte en s'entraînant sur 400 millions de paires image-légende. CLIP encode les images et le texte dans le même espace d'embedding, où les paires image-texte correspondantes sont proches et les paires non correspondantes sont éloignées. C'est le pont entre le langage et la vision dans la plupart des systèmes d'IA multimodaux modernes.

Pourquoi c'est important

CLIP est l'épine dorsale de la génération texte-vers-image (Stable Diffusion, DALL-E), de la recherche d'images, de la classification d'images zero-shot et de la compréhension multimodale. Quand tu tapes un prompt et obtiens une image, CLIP (ou un descendant) est ce qui connecte tes mots aux concepts visuels. Il a prouvé qu'on peut apprendre des représentations visuelles puissantes à partir de la supervision par le langage naturel seul, sans jeux de données d'images étiquetées.

En profondeur

CLIP entraîne deux encodeurs simultanément : un encodeur de texte (Transformer) et un encodeur d'images (ViT ou ResNet). Pendant l'entraînement, un lot de N paires image-légende produit N embeddings de texte et N embeddings d'images. L'objectif d'entraînement maximise la similarité cosinus pour les N paires correctes tout en la minimisant pour les N²−N paires incorrectes. Cet objectif contrastif enseigne aux deux encodeurs à produire des représentations alignées.

Classification zero-shot

CLIP peut classifier des images dans des catégories sur lesquelles il n'a jamais été explicitement entraîné. Pour classifier une image comme "chat" ou "chien", on encode le texte "une photo d'un chat" et "une photo d'un chien", on encode l'image, et on choisit le texte ayant la plus haute similarité cosinus avec l'image. Cette capacité zero-shot était révolutionnaire : un seul modèle pouvait gérer n'importe quelle tâche de classification en changeant les labels textuels, sans aucune donnée d'entraînement spécifique à la tâche.

CLIP dans les modèles de diffusion

Dans les modèles texte-vers-image, l'encodeur de texte de CLIP convertit ton prompt en embeddings qui guident la génération d'images via l'attention croisée. La qualité de la compréhension textuelle de CLIP affecte directement la correspondance entre l'image et ton prompt. Les modèles plus récents utilisent des encodeurs de texte plus puissants (T5, qui comprend mieux le langage compositionnel) aux côtés de ou à la place de CLIP, améliorant le suivi du prompt pour les descriptions complexes. Mais l'encodeur d'images de CLIP reste largement utilisé pour les tâches de compréhension visuelle.

CLIP

Pourquoi c'est important

En profondeur

Classification zero-shot

CLIP dans les modèles de diffusion

Concepts connexes