Encoder-Decoder: Definición y significado — Wiki de IA

Arquitectura con un encoder (que comprime la entrada) y un decoder (que genera la salida). T5/BART son encoder-decoder. GPT/Claude son decoder-only. BERT es encoder-only.

Por qué importa

Explica por qué diferentes modelos destacan en diferentes tareas y por qué decoder-only ganó para los LLMs.

En profundidad

El encoder usa atención bidireccional — cada token puede atender a todos los demás tokens en ambas direcciones. El decoder usa atención causal (solo puede ver tokens anteriores) más atención cruzada que mira la salida del encoder.

Por qué ganó decoder-only

Los modelos decoder-only (GPT, Claude, Llama) ganaron por simplicidad y escalamiento. Una sola pila de Transformer es más fácil de escalar, entrenar y servir. La desventaja teórica — que el decoder solo puede ver tokens anteriores — resulta ser menos importante en la práctica cuando tienes suficientes parámetros y datos.

Encoder-only sigue vivo

BERT y sus descendientes (RoBERTa, DeBERTa) siguen siendo dominantes para embeddings, clasificación y búsqueda. La atención bidireccional produce representaciones de texto superiores cuando no necesitas generar texto. Si tu tarea es "entender este texto" en lugar de "generar texto nuevo", encoder-only probablemente sigue siendo la mejor opción.

Encoder-Decoder

Por qué importa

En profundidad

Por qué ganó decoder-only

Encoder-only sigue vivo

Conceptos relacionados