Zubnet AIApprendreWiki › CLIP
Models

CLIP

Contrastive Language-Image Pre-training
Un modèle d'OpenAI (2021) qui apprend à connecter les images et le texte en s'entraînant sur 400 millions de paires image-caption. CLIP encode les images et le texte dans le même espace d'embedding, où les paires image-texte qui matchent sont proches et les non-matchantes sont loin. C'est le pont entre le langage et la vision dans la plupart des systèmes d'IA multimodaux modernes.

Pourquoi c'est important

CLIP est la colonne vertébrale de la génération text-to-image (Stable Diffusion, DALL-E), de la recherche d'images, de la classification d'images zero-shot et de la compréhension multimodale. Quand tu tapes un prompt et que tu obtiens une image, CLIP (ou un descendant) est ce qui connecte tes mots aux concepts visuels. Il a prouvé qu'on peut apprendre des représentations visuelles puissantes à partir de la supervision du langage naturel seul, sans datasets d'images étiquetés.

Deep Dive

CLIP trains two encoders simultaneously: a text encoder (Transformer) and an image encoder (ViT or ResNet). During training, a batch of N image-caption pairs produces N text embeddings and N image embeddings. The training objective maximizes cosine similarity for the N correct pairs while minimizing it for the N²−N incorrect pairs. This contrastive objective teaches both encoders to produce aligned representations.

Zero-Shot Classification

CLIP can classify images into categories it was never explicitly trained on. To classify an image as "cat" or "dog," encode the text "a photo of a cat" and "a photo of a dog," encode the image, and pick the text with higher cosine similarity to the image. This zero-shot capability was revolutionary: a single model could handle any classification task by changing the text labels, without any task-specific training data.

CLIP in Diffusion Models

In text-to-image models, CLIP's text encoder converts your prompt into embeddings that guide image generation via cross-attention. The quality of CLIP's text understanding directly affects how well the image matches your prompt. Newer models use stronger text encoders (T5, which understands compositional language better) alongside or instead of CLIP, improving prompt following for complex descriptions. But CLIP's image encoder remains widely used for image understanding tasks.

Concepts liés

← Tous les termes
← Classification Clustering →