Aprendizado Contrastivo: Definição e significado — Wiki de IA

Uma abordagem de aprendizado auto-supervisionado que treina modelos contrastando pares positivos (itens similares que devem estar próximos no espaço de embedding) contra pares negativos (itens dissimilares que devem estar distantes). CLIP contrasta pares imagem-texto correspondentes contra não correspondentes. SimCLR contrasta visões aumentadas da mesma imagem contra visões de imagens diferentes. O modelo aprende representações onde similaridade no espaço de embedding reflete similaridade no mundo real.

Por que isso importa

Aprendizado contrastivo é como a maioria dos modelos de embedding são treinados — os modelos que sustentam busca semântica, RAG e recomendações. Também é a abordagem de treinamento por trás do CLIP, que conecta linguagem e visão. Qualquer vez que você usa embeddings para medir similaridade, aprendizado contrastivo é provavelmente como esses embeddings foram criados.

Em profundidade

A loss InfoNCE (usada por CLIP e muitos modelos de embedding): dado um lote de N pares positivos, trate os N−1 itens não correspondentes no lote como exemplos negativos. A loss empurra embeddings de pares positivos mais próximos e embeddings de pares negativos mais distantes. A percepção chave: você não precisa de exemplos negativos explicitamente rotulados — outros itens no lote servem como negativos gratuitamente, tornando a abordagem altamente escalável.

Data Augmentation como Supervisão

Em visão, aprendizado contrastivo cria pares positivos através de data augmentation: dois recortes aleatórios da mesma imagem são um par positivo (mostram o mesmo conteúdo de perspectivas diferentes). Imagens diferentes formam pares negativos. O modelo aprende que as visões aumentadas devem ter embeddings similares enquanto imagens diferentes devem ter embeddings diferentes. Isso aprende representações visuais úteis sem nenhum rótulo — pura auto-supervisão.

Hard Negatives

Nem todos os negativos são igualmente úteis para aprendizado. "Hard negatives" — itens que são similares mas não correspondentes — fornecem o maior sinal de aprendizado. Para uma consulta sobre "frameworks web Python", um hard negative pode ser um documento sobre "ciência de dados Python" (tópico similar, resposta errada) em vez de um sobre "receitas culinárias" (obviamente irrelevante). Mineração de hard negatives é uma técnica chave para treinar modelos de embedding de alta qualidade.

Aprendizado Contrastivo

Por que isso importa

Em profundidade

Data Augmentation como Supervisão

Hard Negatives

Conceitos relacionados