En un Transformer decoder, el enmascaramiento causal asegura que cada token solo pueda atender a tokens anteriores (incluyéndose a sí mismo). Esto se logra estableciendo posiciones futuras a −∞ en los scores de attention antes del softmax. El resultado: la representación del token 5 solo depende de los tokens 1–5. Esta restricción es lo que permite la generación autoregresiva — puedes generar el token 6 usando solo las representaciones de los tokens 1–5, que ya están computadas.
Los LLMs modernos (GPT, Claude, Llama) son solo-decoder: no hay encoder separado, y todo el modelo usa attention causal. El prompt de entrada se procesa a través de las mismas capas del decoder que la salida generada. Esta simplicidad es por qué solo-decoder ganó: una arquitectura, un patrón de attention, escalado limpio. El modelo trata todo como generación — incluso "entender" la entrada se formula como predecir lo que viene después.
En Stable Diffusion, el proceso de diffusion opera en un espacio latente comprimido (64×64 en lugar de 512×512). El VAE decoder convierte esta representación latente de vuelta en una imagen de resolución completa. Es una red neuronal separada que se entrena para reconstruir imágenes desde latentes. La calidad del VAE decoder afecta directamente la calidad de imagen final — un buen decoder agrega detalles finos y texturas que la representación latente no puede capturar a su resolución más baja.