在Transformer解码器中,因果掩码确保每个token只能关注之前的token(包括自身)。这通过在softmax之前将未来位置设为−∞来实现。结果:token 5的表示仅依赖于token 1–5。这个约束使自回归生成成为可能——你可以仅使用已计算的token 1–5的表示来生成token 6。
现代LLM(GPT、Claude、Llama)是纯解码器的:没有单独的编码器,整个模型使用因果注意力。输入提示通过与生成输出相同的解码器层处理。这种简洁性是纯解码器胜出的原因:一种架构、一种注意力模式、清晰的缩放。模型将一切都视为生成——即使“理解”输入也被框架为预测下一个内容。
在Stable Diffusion中,扩散过程在压缩的潜在空间中操作(64×64而非512×512)。VAE解码器将这个潜在表示转换回全分辨率图像。它是一个单独的神经网络,被训练从潜在表示重建图像。VAE解码器的质量直接影响最终图像质量——好的解码器添加潜在表示在较低分辨率下无法捕获的精细细节和纹理。