交叉注意力：定義與含義 — AI 維基

一種注意力機制，其中查詢來自一個序列，而鍵/值來自另一個不同的序列。在編碼器-解碼器模型中，解碼器的查詢關注編碼器的鍵和值，讓解碼器在生成輸出時能「看到」輸入。交叉注意力也是文字在擴散模型中調控影像生成的方式——影像生成過程關注文字提示。

為什麼重要

交叉注意力是不同模態和架構不同部分之間的橋樑。它是翻譯模型連接源語言和目標語言的方式、影像生成器遵循文字提示的方式、多模態模型將影像與文字關聯的方式，以及檢索增強系統整合檢索文件的方式。每當兩個不同的輸入需要互動時，通常都涉及交叉注意力。

深度解析

在自注意力中，Q、K 和 V 都來自相同的序列——每個 token 關注同一輸入中的其他 token。在交叉注意力中，Q 來自一個來源（例如解碼器），K、V 來自另一個來源（例如編碼器）。解碼器 token 問「輸入中什麼與我現在正在生成的內容相關？」注意力機制提供輸入的加權摘要。

在擴散模型中

文字到影像模型使用交叉注意力將影像生成條件化於文字。文字提示被編碼為嵌入（透過 CLIP 或 T5），在每個去噪步驟中，影像特徵透過交叉注意力層關注文字嵌入。這就是模型如何知道要生成「衝浪板上的貓」——影像中每個空間位置都關注相關的詞語。操縱這些交叉注意力圖就是提示加權和注意力編輯等技術的運作方式。

注意力模式

自注意力和交叉注意力具有不同的計算特徵。自注意力在序列長度上是二次方的（每個 token 關注每個其他 token）。交叉注意力是解碼器長度乘以編碼器長度的線性關係（每個解碼器 token 關注所有編碼器 token）。在實踐中，編碼器輸出通常比解碼器序列短得多，使交叉注意力比解碼器自注意力更便宜。

交叉注意力

為什麼重要

深度解析

在擴散模型中

注意力模式

相關概念