Encoder（編碼器）：定義與含義 — AI 維基

一個神經網路組件，將輸入資料轉換為壓縮的、資訊豐富的表示（編碼）。在 Transformer 中，編碼器使用雙向注意力處理完整輸入並產生上下文表示。在自編碼器中，編碼器將輸入壓縮到潛在瓶頸。在影像生成中，VAE 編碼器將影像轉換為潛在空間。編碼器是許多架構中的「理解」部分。

為什麼重要

編碼器無處不在：BERT 是一個編碼器，CLIP 有一個文字編碼器和一個影像編碼器，Stable Diffusion 有一個 VAE 編碼器，RAG 系統使用編碼器模型生成嵌入。理解編碼器的作用——將輸入壓縮為有用的表示——可以幫助你理解所有這些系統。編碼的品質決定了下游一切的品質。

深度解析

在 Transformer 編碼器（BERT、T5 的左半部分）中，每個 token 雙向地關注其他每個 token。這意味著「bank」一詞的表示同時融合了來自「river」（左側上下文）和「fishing」（右側上下文）的資訊。這種雙向注意力是為什麼編碼器表示在理解任務上比解碼器（僅從左到右）表示更豐富的原因。

編碼器與解碼器

關鍵區別：編碼器處理輸入（理解），解碼器生成輸出（創造）。編碼器同時看到一切（雙向）。解碼器只看到過去的 token（因果/從左到右）。這就是為什麼編碼器模型（BERT）更適合分類和搜尋，而解碼器模型（GPT、Claude）更適合生成。編碼器-解碼器模型（T5、BART）使用編碼器進行輸入理解，使用解碼器進行輸出生成，透過交叉注意力連接。

多模態系統中的編碼器

多模態系統通常為每種模態使用單獨的編碼器：視覺編碼器（ViT）用於影像，文字編碼器（BERT/CLIP）用於文字，以及可能的音訊編碼器用於語音。這些在共享空間中產生嵌入，實現跨模態理解。每個編碼器的品質決定了系統對該模態的理解程度。這就是為什麼 CLIP 的訓練（對齊影像和文字編碼器）如此有影響力——它在視覺和語言理解之間建立了一座橋樑。

Encoder

為什麼重要

深度解析

編碼器與解碼器

多模態系統中的編碼器

相關概念