CLIP entrena dos codificadores simultáneamente: un codificador de texto (Transformer) y un codificador de imagen (ViT o ResNet). Durante el entrenamiento, un lote de N pares imagen-texto produce N embeddings de texto y N embeddings de imagen. El objetivo de entrenamiento maximiza la similitud del coseno para los N pares correctos mientras la minimiza para los N²−N pares incorrectos. Este objetivo contrastivo enseña a ambos codificadores a producir representaciones alineadas.
CLIP puede clasificar imágenes en categorías para las que nunca fue explícitamente entrenado. Para clasificar una imagen como "gato" o "perro", codifica el texto "una foto de un gato" y "una foto de un perro", codifica la imagen y elige el texto con mayor similitud del coseno respecto a la imagen. Esta capacidad zero-shot fue revolucionaria: un solo modelo podía manejar cualquier tarea de clasificación cambiando las etiquetas de texto, sin datos de entrenamiento específicos para la tarea.
En los modelos de texto a imagen, el codificador de texto de CLIP convierte tu prompt en embeddings que guían la generación de imágenes mediante cross-attention. La calidad de la comprensión textual de CLIP afecta directamente qué tan bien la imagen coincide con tu prompt. Los modelos más nuevos usan codificadores de texto más potentes (T5, que entiende mejor el lenguaje composicional) junto a o en lugar de CLIP, mejorando el seguimiento de prompts para descripciones complejas. Pero el codificador de imagen de CLIP sigue siendo ampliamente utilizado para tareas de comprensión de imágenes.