Dans un décodeur Transformer, le masquage causal assure que chaque token ne peut prêter attention qu'aux tokens précédents (y compris lui-même). C'est imposé en mettant les positions futures à −∞ dans les scores d'attention avant le softmax. Le résultat : la représentation du token 5 ne dépend que des tokens 1–5. Cette contrainte est ce qui permet la génération autorégressive — tu peux générer le token 6 en utilisant uniquement les représentations des tokens 1–5, qui sont déjà calculées.
Les LLM modernes (GPT, Claude, Llama) sont décodeur seul : il n'y a pas d'encodeur séparé, et le modèle entier utilise l'attention causale. Le prompt d'entrée est traité à travers les mêmes couches de décodeur que la sortie générée. Cette simplicité est la raison pour laquelle le décodeur seul a gagné : une architecture, un pattern d'attention, un scaling propre. Le modèle traite tout comme de la génération — même « comprendre » l'entrée est formulé comme prédire ce qui vient ensuite.
Dans Stable Diffusion, le processus de diffusion opère dans un espace latent compressé (64×64 au lieu de 512×512). Le décodeur VAE convertit cette représentation latente en une image pleine résolution. C'est un réseau de neurones séparé qui est entraîné à reconstruire des images à partir de latents. La qualité du décodeur VAE affecte directement la qualité de l'image finale — un bon décodeur ajoute des détails fins et des textures que la représentation latente ne peut pas capturer à sa résolution inférieure.