Décodeur : Définition et signification — Wiki IA

Un composant de réseau de neurones qui génère une sortie à partir d'une représentation. Dans les Transformers, le décodeur utilise l'attention causale (gauche-à-droite) pour générer des tokens un à la fois. Dans la génération d'images, le décodeur VAE convertit les représentations latentes en images. Dans les auto-encodeurs, le décodeur reconstruit l'entrée originale à partir du goulot d'étranglement compressé. Les décodeurs sont la moitié « génération » de nombreuses architectures.

Pourquoi c'est important

Chaque système d'IA générative a un décodeur en son cœur. GPT, Claude et Llama sont des Transformers décodeur seul. Stable Diffusion utilise un décodeur VAE pour produire des images. Comprendre les décodeurs explique pourquoi la génération est séquentielle (chaque token dépend des tokens précédents), pourquoi la sortie est plus lente que le traitement de l'entrée, et pourquoi le paradigme autorégressif domine la génération de texte.

En profondeur

Dans un décodeur Transformer, le masquage causal assure que chaque token ne peut prêter attention qu'aux tokens précédents (y compris lui-même). C'est imposé en mettant les positions futures à −∞ dans les scores d'attention avant le softmax. Le résultat : la représentation du token 5 ne dépend que des tokens 1–5. Cette contrainte est ce qui permet la génération autorégressive — tu peux générer le token 6 en utilisant uniquement les représentations des tokens 1–5, qui sont déjà calculées.

LLM décodeur seul

Les LLM modernes (GPT, Claude, Llama) sont décodeur seul : il n'y a pas d'encodeur séparé, et le modèle entier utilise l'attention causale. Le prompt d'entrée est traité à travers les mêmes couches de décodeur que la sortie générée. Cette simplicité est la raison pour laquelle le décodeur seul a gagné : une architecture, un pattern d'attention, un scaling propre. Le modèle traite tout comme de la génération — même « comprendre » l'entrée est formulé comme prédire ce qui vient ensuite.

Décodeur VAE dans la génération d'images

Dans Stable Diffusion, le processus de diffusion opère dans un espace latent compressé (64×64 au lieu de 512×512). Le décodeur VAE convertit cette représentation latente en une image pleine résolution. C'est un réseau de neurones séparé qui est entraîné à reconstruire des images à partir de latents. La qualité du décodeur VAE affecte directement la qualité de l'image finale — un bon décodeur ajoute des détails fins et des textures que la représentation latente ne peut pas capturer à sa résolution inférieure.