Em um Transformer decoder, mascaramento causal garante que cada token só pode atender a tokens anteriores (incluindo a si mesmo). Isso é imposto definindo posições futuras como −∞ nos scores de atenção antes do softmax. O resultado: a representação do token 5 só depende dos tokens 1–5. Essa restrição é o que possibilita a geração autorregressiva — você pode gerar o token 6 usando apenas as representações dos tokens 1–5, que já estão computados.
LLMs modernos (GPT, Claude, Llama) são decoder-only: não há encoder separado, e o modelo inteiro usa atenção causal. O prompt de entrada é processado pelas mesmas camadas de decoder que a saída gerada. Essa simplicidade é por que decoder-only venceu: uma arquitetura, um padrão de atenção, escalonamento limpo. O modelo trata tudo como geração — até "entender" a entrada é formulado como prever o que vem a seguir.
Em Stable Diffusion, o processo de difusão opera em um espaço latente comprimido (64×64 em vez de 512×512). O decoder VAE converte essa representação latente de volta em uma imagem de resolução completa. É uma rede neural separada que é treinada para reconstruir imagens a partir de latentes. A qualidade do decoder VAE afeta diretamente a qualidade da imagem final — um bom decoder adiciona detalhes finos e texturas que a representação latente não consegue capturar em sua resolução mais baixa.