O CLIP treina dois encoders simultaneamente: um encoder de texto (Transformer) e um encoder de imagem (ViT ou ResNet). Durante o treinamento, um lote de N pares imagem-legenda produz N embeddings de texto e N embeddings de imagem. O objetivo de treinamento maximiza a similaridade de cosseno para os N pares corretos enquanto minimiza para os N²−N pares incorretos. Esse objetivo contrastivo ensina ambos os encoders a produzir representações alinhadas.
O CLIP pode classificar imagens em categorias nas quais nunca foi explicitamente treinado. Para classificar uma imagem como "gato" ou "cachorro", codifique o texto "uma foto de um gato" e "uma foto de um cachorro", codifique a imagem e escolha o texto com maior similaridade de cosseno com a imagem. Essa capacidade zero-shot foi revolucionária: um único modelo podia lidar com qualquer tarefa de classificação mudando os rótulos de texto, sem dados de treinamento específicos da tarefa.
Em modelos de texto-para-imagem, o encoder de texto do CLIP converte seu prompt em embeddings que guiam a geração de imagens via cross-attention. A qualidade da compreensão de texto do CLIP afeta diretamente quão bem a imagem corresponde ao seu prompt. Modelos mais recentes usam encoders de texto mais fortes (T5, que entende melhor linguagem composicional) junto com ou em vez do CLIP, melhorando o seguimento de prompts para descrições complexas. Mas o encoder de imagem do CLIP permanece amplamente usado para tarefas de compreensão de imagens.