Modélisation par langage masqué : Définition et signification — Wiki IA

Un objectif d'entraînement auto-supervisé où des tokens aléatoires dans l'entrée sont remplacés par un token [MASK], et le modèle doit prédire les tokens originaux à partir du contexte. BERT a popularisé le MLM : masquer 15% des tokens, utiliser l'attention bidirectionnelle pour regarder le contexte à gauche et à droite, et prédire les mots masqués. Cela crée des modèles puissants de compréhension du texte (par opposition aux modèles de génération de texte).

Pourquoi c'est important

Le MLM est l'objectif d'entraînement qui a créé BERT et toute la famille de modèles encodeurs qui alimentent encore la plupart des systèmes de recherche, classification et embedding en production. Comprendre MLM vs. modélisation causale du langage (prédiction du prochain token) explique la division fondamentale entre les modèles de compréhension (BERT) et les modèles de génération (GPT) — et pourquoi chacun excelle dans différentes tâches.

En profondeur

Le processus : prendre une séquence de texte, sélectionner aléatoirement 15% des positions. Pour ces positions : 80% sont remplacées par [MASK], 10% sont remplacées par un token aléatoire, 10% restent inchangées. Le modèle doit prédire le token original à chaque position sélectionnée. Le split 80/10/10 empêche le modèle d'apprendre à ne porter attention qu'aux tokens [MASK], qui n'apparaissent pas lors de l'utilisation réelle.

Contexte bidirectionnel

L'avantage clé du MLM par rapport au LM causal : le modèle voit le contexte à gauche et à droite quand il fait ses prédictions. Pour la phrase "Le [MASK] s'est assis sur le tapis", le modèle utilise à la fois "Le" (contexte gauche) et "s'est assis sur le tapis" (contexte droit) pour prédire "chat". Cette compréhension bidirectionnelle est la raison pour laquelle les modèles de type BERT produisent des représentations plus riches que les modèles gauche-à-droite pour les tâches de compréhension.

MLM vs. LM causal

Le compromis : le MLM crée une excellente compréhension (bon pour la classification, la recherche, la NER) mais ne peut pas générer du texte de manière fluide (prédire des tokens masqués n'est pas la même chose que générer une séquence). Le LM causal (prédire le prochain token de gauche à droite) génère de manière fluide mais comprend moins profondément (ne voit que le contexte gauche). Cette division a conduit à la divergence encodeur-vs-décodeur en NLP. Les LLM modernes sont tous causaux (decoder-only) parce que la génération a plus de valeur commerciale, mais les modèles entraînés par MLM restent l'épine dorsale de la recherche et de la classification.

Modélisation par langage masqué

Pourquoi c'est important

En profondeur

Contexte bidirectionnel

MLM vs. LM causal

Concepts connexes