Encoder: Definición y significado — Wiki de IA

Un componente de red neuronal que convierte datos de entrada en una representación comprimida y rica en información (codificación). En Transformers, el encoder usa attention bidireccional para procesar la entrada completa y producir representaciones contextuales. En autoencoders, el encoder comprime la entrada en un cuello de botella latente. En generación de imágenes, el VAE encoder convierte imágenes al espacio latente. Los encoders son la mitad de "comprensión" de muchas arquitecturas.

Por qué importa

Los encoders están en todas partes: BERT es un encoder, CLIP tiene un text encoder y un image encoder, Stable Diffusion tiene un VAE encoder, los sistemas RAG usan modelos encoder para embeddings. Entender qué hace un encoder — comprime la entrada en una representación útil — te ayuda a entender todos estos sistemas. La calidad de la codificación determina la calidad de todo lo que viene después.

En profundidad

En un Transformer encoder (BERT, la mitad izquierda de T5), cada token atiende a cada otro token bidireccionalmente. Esto significa que la representación de la palabra "banco" incorpora información tanto de "río" (contexto izquierdo) como de "pesca" (contexto derecho) simultáneamente. Este attention bidireccional es por qué las representaciones del encoder son más ricas que las representaciones del decoder (solo de izquierda a derecha) para tareas de comprensión.

Encoder vs. Decoder

La distinción clave: los encoders procesan entrada (comprensión), los decoders generan salida (creación). Los encoders ven todo de una vez (bidireccional). Los decoders solo ven tokens pasados (causal/de izquierda a derecha). Por eso los modelos encoder (BERT) son mejores para clasificación y búsqueda, mientras que los modelos decoder (GPT, Claude) son mejores para generación. Los modelos encoder-decoder (T5, BART) usan un encoder para comprensión de entrada y un decoder para generación de salida, conectados por cross-attention.

Encoders en sistemas multimodales

Los sistemas multimodales típicamente usan encoders separados para cada modalidad: un vision encoder (ViT) para imágenes, un text encoder (BERT/CLIP) para texto, y potencialmente audio encoders para voz. Estos producen embeddings en un espacio compartido, permitiendo comprensión entre modalidades. La calidad de cada encoder determina qué tan bien el sistema entiende esa modalidad. Por eso el entrenamiento de CLIP (alinear image encoder y text encoder) fue tan impactante — creó un puente entre comprensión de visión y lenguaje.