Zubnet AIApprendreWiki › Decoder
Fondamentaux

Decoder

Decoder Network, Generator
Un composant de réseau de neurones qui génère une sortie à partir d'une représentation. Dans les Transformers, le decoder utilise de l'attention causale (de gauche à droite) pour générer les tokens un à la fois. En génération d'images, le VAE decoder convertit les représentations latentes en images. Dans les autoencoders, le decoder reconstruit l'entrée originale à partir du goulot d'étranglement compressé. Les decoders sont la moitié « génération » de beaucoup d'architectures.

Pourquoi c'est important

Chaque système d'IA générative a un decoder en son cœur. GPT, Claude et Llama sont des Transformers decoder-only. Stable Diffusion utilise un VAE decoder pour produire des images. Comprendre les decoders explique pourquoi la génération est séquentielle (chaque token dépend des précédents), pourquoi la sortie est plus lente que le traitement d'entrée, et pourquoi le paradigme autoregressif domine la génération de texte.

Deep Dive

In a Transformer decoder, causal masking ensures each token can only attend to previous tokens (including itself). This is enforced by setting future positions to −∞ in the attention scores before softmax. The result: token 5's representation only depends on tokens 1–5. This constraint is what enables autoregressive generation — you can generate token 6 using only the representations from tokens 1–5, which are already computed.

Decoder-Only LLMs

Modern LLMs (GPT, Claude, Llama) are decoder-only: there's no separate encoder, and the entire model uses causal attention. The input prompt is processed through the same decoder layers as the generated output. This simplicity is why decoder-only won: one architecture, one attention pattern, clean scaling. The model treats everything as generation — even "understanding" the input is framed as predicting what comes next.

VAE Decoder in Image Generation

In Stable Diffusion, the diffusion process operates in a compressed latent space (64×64 instead of 512×512). The VAE decoder converts this latent representation back into a full-resolution image. It's a separate neural network that's trained to reconstruct images from latents. The quality of the VAE decoder directly affects the final image quality — a good decoder adds fine details and textures that the latent representation can't capture at its lower resolution.

Concepts liés

← Tous les termes
ESC