Zubnet AI学习Wiki › CLIP
模型

CLIP

别名:对比语言-图像预训练
OpenAI(2021年)的一个模型,通过在4亿个图像-文字对上训练来学习连接图像和文本。CLIP将图像和文本编码到同一个嵌入空间中,使匹配的图像-文本对彼此接近,不匹配的对彼此远离。它是大多数现代多模态AI系统中连接语言和视觉的桥梁。

为什么重要

CLIP是文本到图像生成(Stable Diffusion、DALL-E)、图像搜索、零样本图像分类和多模态理解的骨干。当你输入提示词并获得图像时,CLIP(或其后继者)就是将你的文字与视觉概念连接起来的东西。它证明了仅通过自然语言监督就能学习强大的视觉表示,无需标注的图像数据集。

深度解析

CLIP同时训练两个编码器:一个文本编码器(Transformer)和一个图像编码器(ViT或ResNet)。训练时,一批N个图像-文字对产生N个文本嵌入和N个图像嵌入。训练目标是最大化N个正确配对的余弦相似度,同时最小化N²−N个错误配对的余弦相似度。这种对比目标教导两个编码器产生对齐的表示。

零样本分类

CLIP可以将图像分类到它从未明确训练过的类别中。要将图像分类为"猫"或"狗",编码文本"a photo of a cat"和"a photo of a dog",编码图像,然后选择与图像余弦相似度更高的文本。这种零样本能力是革命性的:一个模型可以通过更改文本标签来处理任何分类任务,无需任何特定任务的训练数据。

CLIP在扩散模型中的应用

在文本到图像模型中,CLIP的文本编码器将你的提示词转换为嵌入,通过交叉注意力引导图像生成。CLIP文本理解的质量直接影响图像与提示词的匹配程度。较新的模型在CLIP之外或替代CLIP使用更强的文本编码器(T5,能更好地理解组合语言),改善了复杂描述的提示词跟随能力。但CLIP的图像编码器仍广泛用于图像理解任务。

相关概念

← 所有术语
← Classification CNN →