CLIP entraîne deux encodeurs simultanément : un encodeur de texte (Transformer) et un encodeur d'images (ViT ou ResNet). Pendant l'entraînement, un lot de N paires image-légende produit N embeddings de texte et N embeddings d'images. L'objectif d'entraînement maximise la similarité cosinus pour les N paires correctes tout en la minimisant pour les N²−N paires incorrectes. Cet objectif contrastif enseigne aux deux encodeurs à produire des représentations alignées.
CLIP peut classifier des images dans des catégories sur lesquelles il n'a jamais été explicitement entraîné. Pour classifier une image comme "chat" ou "chien", on encode le texte "une photo d'un chat" et "une photo d'un chien", on encode l'image, et on choisit le texte ayant la plus haute similarité cosinus avec l'image. Cette capacité zero-shot était révolutionnaire : un seul modèle pouvait gérer n'importe quelle tâche de classification en changeant les labels textuels, sans aucune donnée d'entraînement spécifique à la tâche.
Dans les modèles texte-vers-image, l'encodeur de texte de CLIP convertit ton prompt en embeddings qui guident la génération d'images via l'attention croisée. La qualité de la compréhension textuelle de CLIP affecte directement la correspondance entre l'image et ton prompt. Les modèles plus récents utilisent des encodeurs de texte plus puissants (T5, qui comprend mieux le langage compositionnel) aux côtés de ou à la place de CLIP, améliorant le suivi du prompt pour les descriptions complexes. Mais l'encodeur d'images de CLIP reste largement utilisé pour les tâches de compréhension visuelle.