在 Transformer 解碼器中,因果遮罩確保每個 token 只能關注前面的 token(包括自身)。這是透過在 softmax 之前將未來位置的注意力分數設為 −∞ 來強制的。結果:token 5 的表示只依賴於 token 1–5。這個約束使自迴歸生成成為可能——你可以只使用 token 1–5 的表示來生成 token 6,而這些已經計算好了。
現代 LLM(GPT、Claude、Llama)是僅解碼器的:沒有獨立的編碼器,整個模型使用因果注意力。輸入提示通過與生成輸出相同的解碼器層處理。這種簡潔性是僅解碼器架構勝出的原因:一種架構、一種注意力模式、乾淨的擴展。模型將所有東西都視為生成——即使是「理解」輸入也被構建為預測接下來會出現什麼。
在 Stable Diffusion 中,擴散過程在壓縮的潛在空間(64×64 而非 512×512)中運作。VAE 解碼器將這個潛在表示轉換回全解析度影像。它是一個獨立的神經網路,被訓練來從潛在表示重建影像。VAE 解碼器的品質直接影響最終影像品質——好的解碼器添加潛在表示在較低解析度下無法捕捉的精細細節和紋理。