Le processus : prendre une séquence de texte, sélectionner aléatoirement 15% des positions. Pour ces positions : 80% sont remplacées par [MASK], 10% sont remplacées par un token aléatoire, 10% restent inchangées. Le modèle doit prédire le token original à chaque position sélectionnée. Le split 80/10/10 empêche le modèle d'apprendre à ne porter attention qu'aux tokens [MASK], qui n'apparaissent pas lors de l'utilisation réelle.
L'avantage clé du MLM par rapport au LM causal : le modèle voit le contexte à gauche et à droite quand il fait ses prédictions. Pour la phrase "Le [MASK] s'est assis sur le tapis", le modèle utilise à la fois "Le" (contexte gauche) et "s'est assis sur le tapis" (contexte droit) pour prédire "chat". Cette compréhension bidirectionnelle est la raison pour laquelle les modèles de type BERT produisent des représentations plus riches que les modèles gauche-à-droite pour les tâches de compréhension.
Le compromis : le MLM crée une excellente compréhension (bon pour la classification, la recherche, la NER) mais ne peut pas générer du texte de manière fluide (prédire des tokens masqués n'est pas la même chose que générer une séquence). Le LM causal (prédire le prochain token de gauche à droite) génère de manière fluide mais comprend moins profondément (ne voit que le contexte gauche). Cette division a conduit à la divergence encodeur-vs-décodeur en NLP. Les LLM modernes sont tous causaux (decoder-only) parce que la génération a plus de valeur commerciale, mais les modèles entraînés par MLM restent l'épine dorsale de la recherche et de la classification.