Zubnet AIAprenderWiki › CLIP
Modelos

CLIP

Também conhecido como: Contrastive Language-Image Pre-training
Um modelo da OpenAI (2021) que aprende a conectar imagens e texto treinando em 400 milhões de pares imagem-legenda. O CLIP codifica imagens e texto no mesmo espaço de embedding, onde pares imagem-texto correspondentes ficam próximos e pares não correspondentes ficam distantes. É a ponte entre linguagem e visão na maioria dos sistemas modernos de IA multimodal.

Por que isso importa

O CLIP é a espinha dorsal da geração de imagem a partir de texto (Stable Diffusion, DALL-E), busca de imagens, classificação de imagens zero-shot e compreensão multimodal. Quando você digita um prompt e obtém uma imagem, o CLIP (ou um descendente) é o que conecta suas palavras a conceitos visuais. Ele provou que é possível aprender representações visuais poderosas apenas a partir de supervisão em linguagem natural, sem datasets de imagens rotuladas.

Em profundidade

O CLIP treina dois encoders simultaneamente: um encoder de texto (Transformer) e um encoder de imagem (ViT ou ResNet). Durante o treinamento, um lote de N pares imagem-legenda produz N embeddings de texto e N embeddings de imagem. O objetivo de treinamento maximiza a similaridade de cosseno para os N pares corretos enquanto minimiza para os N²−N pares incorretos. Esse objetivo contrastivo ensina ambos os encoders a produzir representações alinhadas.

Classificação Zero-Shot

O CLIP pode classificar imagens em categorias nas quais nunca foi explicitamente treinado. Para classificar uma imagem como "gato" ou "cachorro", codifique o texto "uma foto de um gato" e "uma foto de um cachorro", codifique a imagem e escolha o texto com maior similaridade de cosseno com a imagem. Essa capacidade zero-shot foi revolucionária: um único modelo podia lidar com qualquer tarefa de classificação mudando os rótulos de texto, sem dados de treinamento específicos da tarefa.

CLIP em Modelos de Difusão

Em modelos de texto-para-imagem, o encoder de texto do CLIP converte seu prompt em embeddings que guiam a geração de imagens via cross-attention. A qualidade da compreensão de texto do CLIP afeta diretamente quão bem a imagem corresponde ao seu prompt. Modelos mais recentes usam encoders de texto mais fortes (T5, que entende melhor linguagem composicional) junto com ou em vez do CLIP, melhorando o seguimento de prompts para descrições complexas. Mas o encoder de imagem do CLIP permanece amplamente usado para tarefas de compreensão de imagens.

Conceitos relacionados

← Todos os termos
← Classificação Clusterização →