L'entraînement de BERT utilise deux objectifs : le Masked Language Modeling (MLM) — masquer aléatoirement 15 % des tokens et les prédire à partir du contexte — et le Next Sentence Prediction (NSP) — prédire si deux phrases sont consécutives. Le MLM force la compréhension bidirectionnelle parce que le modèle doit utiliser le contexte gauche et droit pour prédire les mots masqués. C'est fondamentalement différent de l'approche gauche-à-droite de GPT.
À l'ère des LLM, les modèles de la famille BERT (RoBERTa, DeBERTa, DistilBERT) restent la colonne vertébrale du NLP en production. Ils sont 100x plus petits que les LLM (110M–340M paramètres vs. des milliards), 10x plus rapides en inférence, et souvent meilleurs pour les tâches qui ne nécessitent pas de génération. La plupart des modèles d'embeddings utilisés en RAG et recherche sémantique sont des descendants de BERT. Google Search utilisait BERT de manière extensive avant de transitionner vers des modèles plus grands.
BERT (encodeur seulement, bidirectionnel) et GPT (décodeur seulement, gauche-à-droite) représentent deux philosophies. BERT voit toute l'entrée d'un coup — parfait pour comprendre. GPT ne voit que ce qui est venu avant — parfait pour générer. Le domaine pensait initialement que l'encodeur-décodeur (T5) gagnerait en combinant les deux. À la place, le décodeur seul (approche GPT) a gagné pour les LLM parce qu'il passe mieux à l'échelle, et on peut approximer la compréhension bidirectionnelle avec du prompting astucieux.