Decoder（解碼器）：定義與含義 — AI 維基

一個從表示中生成輸出的神經網路組件。在 Transformer 中，解碼器使用因果（從左到右）注意力逐個生成 token。在影像生成中，VAE 解碼器將潛在表示轉換回影像。在自編碼器中，解碼器從壓縮瓶頸重建原始輸入。解碼器是許多架構中的「生成」部分。

為什麼重要

每個生成式 AI 系統的核心都有一個解碼器。GPT、Claude 和 Llama 是僅解碼器的 Transformer。Stable Diffusion 使用 VAE 解碼器產生影像。理解解碼器能解釋為什麼生成是序列式的（每個 token 依賴於前面的 token）、為什麼輸出比輸入處理慢，以及為什麼自迴歸範式主導了文字生成。

深度解析

在 Transformer 解碼器中，因果遮罩確保每個 token 只能關注前面的 token（包括自身）。這是透過在 softmax 之前將未來位置的注意力分數設為 −∞ 來強制的。結果：token 5 的表示只依賴於 token 1–5。這個約束使自迴歸生成成為可能——你可以只使用 token 1–5 的表示來生成 token 6，而這些已經計算好了。

僅解碼器 LLM

現代 LLM（GPT、Claude、Llama）是僅解碼器的：沒有獨立的編碼器，整個模型使用因果注意力。輸入提示通過與生成輸出相同的解碼器層處理。這種簡潔性是僅解碼器架構勝出的原因：一種架構、一種注意力模式、乾淨的擴展。模型將所有東西都視為生成——即使是「理解」輸入也被構建為預測接下來會出現什麼。

影像生成中的 VAE 解碼器

在 Stable Diffusion 中，擴散過程在壓縮的潛在空間（64×64 而非 512×512）中運作。VAE 解碼器將這個潛在表示轉換回全解析度影像。它是一個獨立的神經網路，被訓練來從潛在表示重建影像。VAE 解碼器的品質直接影響最終影像品質——好的解碼器添加潛在表示在較低解析度下無法捕捉的精細細節和紋理。

Decoder

為什麼重要

深度解析

僅解碼器 LLM

影像生成中的 VAE 解碼器

相關概念