Zubnet AIAprenderWiki › CLIP
Modelos

CLIP

También conocido como: Contrastive Language-Image Pre-training
Un modelo de OpenAI (2021) que aprende a conectar imágenes y texto entrenándose con 400 millones de pares imagen-texto. CLIP codifica imágenes y texto en el mismo espacio de embeddings, donde los pares imagen-texto coincidentes están cerca y los no coincidentes están lejos. Es el puente entre lenguaje y visión en la mayoría de los sistemas de IA multimodal modernos.

Por qué importa

CLIP es la columna vertebral de la generación de texto a imagen (Stable Diffusion, DALL-E), la búsqueda de imágenes, la clasificación de imágenes zero-shot y la comprensión multimodal. Cuando escribes un prompt y obtienes una imagen, CLIP (o un descendiente) es lo que conecta tus palabras con conceptos visuales. Demostró que puedes aprender representaciones visuales potentes solo con supervisión de lenguaje natural, sin datasets de imágenes etiquetadas.

En profundidad

CLIP entrena dos codificadores simultáneamente: un codificador de texto (Transformer) y un codificador de imagen (ViT o ResNet). Durante el entrenamiento, un lote de N pares imagen-texto produce N embeddings de texto y N embeddings de imagen. El objetivo de entrenamiento maximiza la similitud del coseno para los N pares correctos mientras la minimiza para los N²−N pares incorrectos. Este objetivo contrastivo enseña a ambos codificadores a producir representaciones alineadas.

Clasificación zero-shot

CLIP puede clasificar imágenes en categorías para las que nunca fue explícitamente entrenado. Para clasificar una imagen como "gato" o "perro", codifica el texto "una foto de un gato" y "una foto de un perro", codifica la imagen y elige el texto con mayor similitud del coseno respecto a la imagen. Esta capacidad zero-shot fue revolucionaria: un solo modelo podía manejar cualquier tarea de clasificación cambiando las etiquetas de texto, sin datos de entrenamiento específicos para la tarea.

CLIP en modelos de difusión

En los modelos de texto a imagen, el codificador de texto de CLIP convierte tu prompt en embeddings que guían la generación de imágenes mediante cross-attention. La calidad de la comprensión textual de CLIP afecta directamente qué tan bien la imagen coincide con tu prompt. Los modelos más nuevos usan codificadores de texto más potentes (T5, que entiende mejor el lenguaje composicional) junto a o en lugar de CLIP, mejorando el seguimiento de prompts para descripciones complejas. Pero el codificador de imagen de CLIP sigue siendo ampliamente utilizado para tareas de comprensión de imágenes.

Conceptos relacionados

← Todos los términos