Decoder: Definición y significado — Wiki de IA

Un componente de red neuronal que genera salida a partir de una representación. En Transformers, el decoder usa attention causal (de izquierda a derecha) para generar tokens uno a la vez. En generación de imágenes, el VAE decoder convierte representaciones latentes de vuelta en imágenes. En autoencoders, el decoder reconstruye la entrada original desde el cuello de botella comprimido. Los decoders son la mitad de "generación" de muchas arquitecturas.

Por qué importa

Todo sistema de IA generativa tiene un decoder en su núcleo. GPT, Claude y Llama son Transformers solo-decoder. Stable Diffusion usa un VAE decoder para producir imágenes. Entender los decoders explica por qué la generación es secuencial (cada token depende de los tokens anteriores), por qué la salida es más lenta que el procesamiento de entrada, y por qué el paradigma autoregresivo domina la generación de texto.

En profundidad

En un Transformer decoder, el enmascaramiento causal asegura que cada token solo pueda atender a tokens anteriores (incluyéndose a sí mismo). Esto se logra estableciendo posiciones futuras a −∞ en los scores de attention antes del softmax. El resultado: la representación del token 5 solo depende de los tokens 1–5. Esta restricción es lo que permite la generación autoregresiva — puedes generar el token 6 usando solo las representaciones de los tokens 1–5, que ya están computadas.

LLMs solo-decoder

Los LLMs modernos (GPT, Claude, Llama) son solo-decoder: no hay encoder separado, y todo el modelo usa attention causal. El prompt de entrada se procesa a través de las mismas capas del decoder que la salida generada. Esta simplicidad es por qué solo-decoder ganó: una arquitectura, un patrón de attention, escalado limpio. El modelo trata todo como generación — incluso "entender" la entrada se formula como predecir lo que viene después.

VAE Decoder en generación de imágenes

En Stable Diffusion, el proceso de diffusion opera en un espacio latente comprimido (64×64 en lugar de 512×512). El VAE decoder convierte esta representación latente de vuelta en una imagen de resolución completa. Es una red neuronal separada que se entrena para reconstruir imágenes desde latentes. La calidad del VAE decoder afecta directamente la calidad de imagen final — un buen decoder agrega detalles finos y texturas que la representación latente no puede capturar a su resolución más baja.