OpenAI(2021 年)的一個模型,透過在 4 億個圖像-文字描述對上訓練來學習連接圖像和文本。CLIP 將圖像和文本編碼到同一個嵌入空間中,其中匹配的圖像-文本對距離近,不匹配的對距離遠。它是大多數現代多模態 AI 系統中連接語言與視覺的橋樑。
CLIP 是文本到圖像生成(Stable Diffusion、DALL-E)、圖像搜尋、零樣本圖像分類和多模態理解的骨幹。當你輸入提示詞並獲得圖像時,CLIP(或其後繼者)就是將你的文字連接到視覺概念的東西。它證明了僅透過自然語言監督就能學習強大的視覺表示,不需要標記的圖像資料集。
CLIP 同時訓練兩個編碼器:一個文本編碼器(Transformer)和一個圖像編碼器(ViT 或 ResNet)。訓練期間,一批 N 個圖像-文字描述對會產生 N 個文本嵌入和 N 個圖像嵌入。訓練目標是最大化 N 個正確配對的餘弦相似度,同時最小化 N²−N 個不正確配對的餘弦相似度。這個對比目標教會兩個編碼器產生對齊的表示。
CLIP 可以將圖像分類為它從未被明確訓練過的類別。要將圖像分類為「貓」或「狗」,只需編碼文本「一張貓的照片」和「一張狗的照片」,編碼圖像,然後選擇與圖像餘弦相似度更高的文本。這種零樣本能力是革命性的:單一模型只需更改文本標籤就能處理任何分類任務,不需要任何特定任務的訓練資料。
在文本到圖像模型中,CLIP 的文本編碼器將你的提示詞轉換為嵌入,透過交叉注意力引導圖像生成。CLIP 文本理解的品質直接影響圖像與提示詞的匹配程度。較新的模型使用更強的文本編碼器(T5,更好地理解組合性語言)來搭配或取代 CLIP,改善了複雜描述的提示詞遵循。但 CLIP 的圖像編碼器仍然廣泛用於圖像理解任務。