Zubnet AIAprenderWiki › Decoder
Fundamentos

Decoder

Decoder Network, Generator
Un componente de red neuronal que genera salida a partir de una representación. En los Transformers, el decoder usa atención causal (de izquierda a derecha) para generar tokens uno por uno. En generación de imágenes, el VAE decoder convierte representaciones latentes de vuelta a imágenes. En autoencoders, el decoder reconstruye la entrada original desde el cuello de botella comprimido. Los decoders son la mitad «generación» de muchas arquitecturas.

Por qué importa

Cada sistema de IA generativa tiene un decoder en su núcleo. GPT, Claude y Llama son Transformers decoder-only. Stable Diffusion usa un VAE decoder para producir imágenes. Entender decoders explica por qué la generación es secuencial (cada token depende de los anteriores), por qué la salida es más lenta que el procesamiento de entrada, y por qué el paradigma autoregresivo domina la generación de texto.

Deep Dive

In a Transformer decoder, causal masking ensures each token can only attend to previous tokens (including itself). This is enforced by setting future positions to −∞ in the attention scores before softmax. The result: token 5's representation only depends on tokens 1–5. This constraint is what enables autoregressive generation — you can generate token 6 using only the representations from tokens 1–5, which are already computed.

Decoder-Only LLMs

Modern LLMs (GPT, Claude, Llama) are decoder-only: there's no separate encoder, and the entire model uses causal attention. The input prompt is processed through the same decoder layers as the generated output. This simplicity is why decoder-only won: one architecture, one attention pattern, clean scaling. The model treats everything as generation — even "understanding" the input is framed as predicting what comes next.

VAE Decoder in Image Generation

In Stable Diffusion, the diffusion process operates in a compressed latent space (64×64 instead of 512×512). The VAE decoder converts this latent representation back into a full-resolution image. It's a separate neural network that's trained to reconstruct images from latents. The quality of the VAE decoder directly affects the final image quality — a good decoder adds fine details and textures that the latent representation can't capture at its lower resolution.

Conceptos relacionados

← Todos los términos
ESC