La pérdida InfoNCE (usada por CLIP y muchos modelos de embedding): dado un lote de N pares positivos, tratar los N−1 elementos no coincidentes del lote como ejemplos negativos. La pérdida empuja los embeddings de pares positivos más cerca y los de pares negativos más lejos. La idea clave: no necesitas ejemplos negativos explícitamente etiquetados — otros elementos del lote sirven como negativos gratis, haciendo el enfoque altamente escalable.
En visión, el aprendizaje contrastivo crea pares positivos mediante aumento de datos: dos recortes aleatorios de la misma imagen son un par positivo (muestran el mismo contenido desde diferentes vistas). Imágenes diferentes forman pares negativos. El modelo aprende que las vistas aumentadas deben tener embeddings similares mientras que imágenes diferentes deben tener embeddings diferentes. Esto aprende representaciones visuales útiles sin ninguna etiqueta — supervisión puramente auto-supervisada.
No todos los negativos son igualmente útiles para el aprendizaje. Los "negativos difíciles" — elementos que son similares pero no coincidentes — proporcionan la mayor señal de aprendizaje. Para una consulta sobre "frameworks web de Python", un negativo difícil podría ser un documento sobre "ciencia de datos en Python" (tema similar, respuesta incorrecta) en lugar de uno sobre "recetas de cocina" (obviamente irrelevante). Minar negativos difíciles es una técnica clave para entrenar modelos de embedding de alta calidad.