एक Transformer encoder (BERT, T5 का बायाँ आधा) में, हर token bidirectionally हर दूसरे token पर attend करता है। इसका मतलब है कि "bank" शब्द का representation एक साथ "river" (बायाँ context) और "fishing" (दायाँ context) दोनों से जानकारी incorporate करता है। यह bidirectional attention ही कारण है कि encoder representations समझने के कार्यों के लिए decoder (केवल left-to-right) representations से समृद्ध हैं।
मुख्य भेद: encoders input process करते हैं (समझना), decoders output generate करते हैं (निर्माण)। Encoders सब कुछ एक साथ देखते हैं (bidirectional)। Decoders केवल past tokens देखते हैं (causal/left-to-right)। यही कारण है कि encoder मॉडल (BERT) classification और search के लिए बेहतर हैं, जबकि decoder मॉडल (GPT, Claude) generation के लिए बेहतर हैं। Encoder-decoder मॉडल (T5, BART) input understanding के लिए encoder और output generation के लिए decoder उपयोग करते हैं, cross-attention द्वारा जुड़े हुए।
Multimodal systems आमतौर पर प्रत्येक modality के लिए अलग encoders उपयोग करते हैं: images के लिए vision encoder (ViT), text के लिए text encoder (BERT/CLIP), और संभावित रूप से speech के लिए audio encoders। ये एक shared space में embeddings उत्पन्न करते हैं, cross-modal understanding सक्षम करते हैं। प्रत्येक encoder की गुणवत्ता निर्धारित करती है कि system उस modality को कितनी अच्छी तरह समझता है। यही कारण है कि CLIP का training (image और text encoders को align करना) इतना प्रभावशाली था — इसने vision और language understanding के बीच एक bridge बनाया।