Encoder (इनपुट को compress करता है) और decoder (आउटपुट उत्पन्न करता है) वाला architecture। T5/BART encoder-decoder हैं। GPT/Claude decoder-only हैं। BERT encoder-only है।
यह क्यों मायने रखता है
बताता है कि अलग-अलग मॉडल अलग-अलग कार्यों में क्यों उत्कृष्ट हैं और LLM के लिए decoder-only ने क्यों जीता।
गहन अध्ययन
Encoder bidirectional attention का उपयोग करता है; decoder causal + cross-attention का उपयोग करता है। Decoder-only ने सरलता और scaling के कारण जीता। Encoder-only (BERT) embeddings, classification और search के लिए अभी भी प्रमुख है।