Dans un encodeur Transformer (BERT, la moitié gauche de T5), chaque token attend à chaque autre token bidirectionnellement. Ça signifie que la représentation du mot « banque » incorpore l'information à la fois de « rivière » (contexte gauche) et de « pêche » (contexte droit) simultanément. Cette attention bidirectionnelle est la raison pour laquelle les représentations d'encodeur sont plus riches que les représentations de décodeur (gauche-à-droite uniquement) pour les tâches de compréhension.
La distinction clé : les encodeurs traitent l'entrée (compréhension), les décodeurs génèrent la sortie (création). Les encodeurs voient tout d'un coup (bidirectionnel). Les décodeurs ne voient que les tokens passés (causal/gauche-à-droite). C'est pourquoi les modèles encodeurs (BERT) sont meilleurs pour la classification et la recherche, tandis que les modèles décodeurs (GPT, Claude) sont meilleurs pour la génération. Les modèles encodeur-décodeur (T5, BART) utilisent un encodeur pour la compréhension de l'entrée et un décodeur pour la génération de sortie, connectés par l'attention croisée.
Les systèmes multimodaux utilisent typiquement des encodeurs séparés pour chaque modalité : un encodeur de vision (ViT) pour les images, un encodeur de texte (BERT/CLIP) pour le texte, et potentiellement des encodeurs audio pour la parole. Ceux-ci produisent des embeddings dans un espace partagé, permettant la compréhension inter-modale. La qualité de chaque encodeur détermine à quel point le système comprend cette modalité. C'est pourquoi l'entraînement de CLIP (aligner les encodeurs image et texte) a été si impactant — il a créé un pont entre la compréhension visuelle et linguistique.