CLIP：定義與含義 — AI 維基

OpenAI（2021 年）的一個模型，透過在 4 億個圖像-文字描述對上訓練來學習連接圖像和文本。CLIP 將圖像和文本編碼到同一個嵌入空間中，其中匹配的圖像-文本對距離近，不匹配的對距離遠。它是大多數現代多模態 AI 系統中連接語言與視覺的橋樑。

為什麼重要

CLIP 是文本到圖像生成（Stable Diffusion、DALL-E）、圖像搜尋、零樣本圖像分類和多模態理解的骨幹。當你輸入提示詞並獲得圖像時，CLIP（或其後繼者）就是將你的文字連接到視覺概念的東西。它證明了僅透過自然語言監督就能學習強大的視覺表示，不需要標記的圖像資料集。

深度解析

CLIP 同時訓練兩個編碼器：一個文本編碼器（Transformer）和一個圖像編碼器（ViT 或 ResNet）。訓練期間，一批 N 個圖像-文字描述對會產生 N 個文本嵌入和 N 個圖像嵌入。訓練目標是最大化 N 個正確配對的餘弦相似度，同時最小化 N²−N 個不正確配對的餘弦相似度。這個對比目標教會兩個編碼器產生對齊的表示。

零樣本分類

CLIP 可以將圖像分類為它從未被明確訓練過的類別。要將圖像分類為「貓」或「狗」，只需編碼文本「一張貓的照片」和「一張狗的照片」，編碼圖像，然後選擇與圖像餘弦相似度更高的文本。這種零樣本能力是革命性的：單一模型只需更改文本標籤就能處理任何分類任務，不需要任何特定任務的訓練資料。

CLIP 在擴散模型中

在文本到圖像模型中，CLIP 的文本編碼器將你的提示詞轉換為嵌入，透過交叉注意力引導圖像生成。CLIP 文本理解的品質直接影響圖像與提示詞的匹配程度。較新的模型使用更強的文本編碼器（T5，更好地理解組合性語言）來搭配或取代 CLIP，改善了複雜描述的提示詞遵循。但 CLIP 的圖像編碼器仍然廣泛用於圖像理解任務。

CLIP

為什麼重要

深度解析

零樣本分類

CLIP 在擴散模型中

相關概念