CLIP：定义与含义 — AI 维基

OpenAI（2021年）的一个模型，通过在4亿个图像-文字对上训练来学习连接图像和文本。CLIP将图像和文本编码到同一个嵌入空间中，使匹配的图像-文本对彼此接近，不匹配的对彼此远离。它是大多数现代多模态AI系统中连接语言和视觉的桥梁。

为什么重要

CLIP是文本到图像生成（Stable Diffusion、DALL-E）、图像搜索、零样本图像分类和多模态理解的骨干。当你输入提示词并获得图像时，CLIP（或其后继者）就是将你的文字与视觉概念连接起来的东西。它证明了仅通过自然语言监督就能学习强大的视觉表示，无需标注的图像数据集。

深度解析

CLIP同时训练两个编码器：一个文本编码器（Transformer）和一个图像编码器（ViT或ResNet）。训练时，一批N个图像-文字对产生N个文本嵌入和N个图像嵌入。训练目标是最大化N个正确配对的余弦相似度，同时最小化N²−N个错误配对的余弦相似度。这种对比目标教导两个编码器产生对齐的表示。

零样本分类

CLIP可以将图像分类到它从未明确训练过的类别中。要将图像分类为"猫"或"狗"，编码文本"a photo of a cat"和"a photo of a dog"，编码图像，然后选择与图像余弦相似度更高的文本。这种零样本能力是革命性的：一个模型可以通过更改文本标签来处理任何分类任务，无需任何特定任务的训练数据。

CLIP在扩散模型中的应用

在文本到图像模型中，CLIP的文本编码器将你的提示词转换为嵌入，通过交叉注意力引导图像生成。CLIP文本理解的质量直接影响图像与提示词的匹配程度。较新的模型在CLIP之外或替代CLIP使用更强的文本编码器（T5，能更好地理解组合语言），改善了复杂描述的提示词跟随能力。但CLIP的图像编码器仍广泛用于图像理解任务。

CLIP

为什么重要

深度解析

零样本分类

CLIP在扩散模型中的应用

相关概念