A loss InfoNCE (usada por CLIP e muitos modelos de embedding): dado um lote de N pares positivos, trate os N−1 itens não correspondentes no lote como exemplos negativos. A loss empurra embeddings de pares positivos mais próximos e embeddings de pares negativos mais distantes. A percepção chave: você não precisa de exemplos negativos explicitamente rotulados — outros itens no lote servem como negativos gratuitamente, tornando a abordagem altamente escalável.
Em visão, aprendizado contrastivo cria pares positivos através de data augmentation: dois recortes aleatórios da mesma imagem são um par positivo (mostram o mesmo conteúdo de perspectivas diferentes). Imagens diferentes formam pares negativos. O modelo aprende que as visões aumentadas devem ter embeddings similares enquanto imagens diferentes devem ter embeddings diferentes. Isso aprende representações visuais úteis sem nenhum rótulo — pura auto-supervisão.
Nem todos os negativos são igualmente úteis para aprendizado. "Hard negatives" — itens que são similares mas não correspondentes — fornecem o maior sinal de aprendizado. Para uma consulta sobre "frameworks web Python", um hard negative pode ser um documento sobre "ciência de dados Python" (tópico similar, resposta errada) em vez de um sobre "receitas culinárias" (obviamente irrelevante). Mineração de hard negatives é uma técnica chave para treinar modelos de embedding de alta qualidade.