Zubnet AI學習Wiki › Encoder
基礎

Encoder

別名:編碼器網路、特徵擷取器
一個神經網路組件,將輸入資料轉換為壓縮的、資訊豐富的表示(編碼)。在 Transformer 中,編碼器使用雙向注意力處理完整輸入並產生上下文表示。在自編碼器中,編碼器將輸入壓縮到潛在瓶頸。在影像生成中,VAE 編碼器將影像轉換為潛在空間。編碼器是許多架構中的「理解」部分。

為什麼重要

編碼器無處不在:BERT 是一個編碼器,CLIP 有一個文字編碼器和一個影像編碼器,Stable Diffusion 有一個 VAE 編碼器,RAG 系統使用編碼器模型生成嵌入。理解編碼器的作用——將輸入壓縮為有用的表示——可以幫助你理解所有這些系統。編碼的品質決定了下游一切的品質。

深度解析

在 Transformer 編碼器(BERT、T5 的左半部分)中,每個 token 雙向地關注其他每個 token。這意味著「bank」一詞的表示同時融合了來自「river」(左側上下文)和「fishing」(右側上下文)的資訊。這種雙向注意力是為什麼編碼器表示在理解任務上比解碼器(僅從左到右)表示更豐富的原因。

編碼器與解碼器

關鍵區別:編碼器處理輸入(理解),解碼器生成輸出(創造)。編碼器同時看到一切(雙向)。解碼器只看到過去的 token(因果/從左到右)。這就是為什麼編碼器模型(BERT)更適合分類和搜尋,而解碼器模型(GPT、Claude)更適合生成。編碼器-解碼器模型(T5、BART)使用編碼器進行輸入理解,使用解碼器進行輸出生成,透過交叉注意力連接。

多模態系統中的編碼器

多模態系統通常為每種模態使用單獨的編碼器:視覺編碼器(ViT)用於影像,文字編碼器(BERT/CLIP)用於文字,以及可能的音訊編碼器用於語音。這些在共享空間中產生嵌入,實現跨模態理解。每個編碼器的品質決定了系統對該模態的理解程度。這就是為什麼 CLIP 的訓練(對齊影像和文字編碼器)如此有影響力——它在視覺和語言理解之間建立了一座橋樑。

相關概念

← 所有術語
ESC
Start typing to search...