En un Transformer encoder (BERT, la mitad izquierda de T5), cada token atiende a cada otro token bidireccionalmente. Esto significa que la representación de la palabra "banco" incorpora información tanto de "río" (contexto izquierdo) como de "pesca" (contexto derecho) simultáneamente. Este attention bidireccional es por qué las representaciones del encoder son más ricas que las representaciones del decoder (solo de izquierda a derecha) para tareas de comprensión.
La distinción clave: los encoders procesan entrada (comprensión), los decoders generan salida (creación). Los encoders ven todo de una vez (bidireccional). Los decoders solo ven tokens pasados (causal/de izquierda a derecha). Por eso los modelos encoder (BERT) son mejores para clasificación y búsqueda, mientras que los modelos decoder (GPT, Claude) son mejores para generación. Los modelos encoder-decoder (T5, BART) usan un encoder para comprensión de entrada y un decoder para generación de salida, conectados por cross-attention.
Los sistemas multimodales típicamente usan encoders separados para cada modalidad: un vision encoder (ViT) para imágenes, un text encoder (BERT/CLIP) para texto, y potencialmente audio encoders para voz. Estos producen embeddings en un espacio compartido, permitiendo comprensión entre modalidades. La calidad de cada encoder determina qué tan bien el sistema entiende esa modalidad. Por eso el entrenamiento de CLIP (alinear image encoder y text encoder) fue tan impactante — creó un puente entre comprensión de visión y lenguaje.