在 Transformer 編碼器(BERT、T5 的左半部分)中,每個 token 雙向地關注其他每個 token。這意味著「bank」一詞的表示同時融合了來自「river」(左側上下文)和「fishing」(右側上下文)的資訊。這種雙向注意力是為什麼編碼器表示在理解任務上比解碼器(僅從左到右)表示更豐富的原因。
關鍵區別:編碼器處理輸入(理解),解碼器生成輸出(創造)。編碼器同時看到一切(雙向)。解碼器只看到過去的 token(因果/從左到右)。這就是為什麼編碼器模型(BERT)更適合分類和搜尋,而解碼器模型(GPT、Claude)更適合生成。編碼器-解碼器模型(T5、BART)使用編碼器進行輸入理解,使用解碼器進行輸出生成,透過交叉注意力連接。
多模態系統通常為每種模態使用單獨的編碼器:視覺編碼器(ViT)用於影像,文字編碼器(BERT/CLIP)用於文字,以及可能的音訊編碼器用於語音。這些在共享空間中產生嵌入,實現跨模態理解。每個編碼器的品質決定了系統對該模態的理解程度。這就是為什麼 CLIP 的訓練(對齊影像和文字編碼器)如此有影響力——它在視覺和語言理解之間建立了一座橋樑。