Architecture avec encodeur (compresse l'entrée) et décodeur (génère la sortie). T5/BART sont encodeur-décodeur. GPT/Claude sont décodeur seul. BERT est encodeur seul.
Pourquoi c'est important
Explique pourquoi différents modèles excellent dans différentes tâches et pourquoi le décodeur seul a gagné pour les LLM.
En profondeur
L'encodeur utilise l'attention bidirectionnelle ; le décodeur utilise l'attention causale + l'attention croisée. Le décodeur seul a gagné grâce à sa simplicité et sa capacité à scaler. L'encodeur seul (BERT) reste dominant pour les embeddings, la classification et la recherche.