O processo: pegue uma sequência de texto, selecione aleatoriamente 15% das posições. Para essas posições: 80% são substituídas por [MASK], 10% são substituídas por um token aleatório, 10% são mantidas inalteradas. O modelo deve prever o token original em cada posição selecionada. A divisão 80/10/10 impede que o modelo aprenda a prestar atenção apenas aos tokens [MASK], que não aparecem durante o uso real.
A principal vantagem do MLM sobre LM causal: o modelo vê tanto o contexto à esquerda quanto à direita ao fazer previsões. Para a frase "O [MASK] sentou no tapete", o modelo usa tanto "O" (contexto esquerdo) quanto "sentou no tapete" (contexto direito) para prever "gato". Essa compreensão bidirecional é o motivo pelo qual modelos estilo BERT produzem representações mais ricas que modelos da esquerda para a direita para tarefas de compreensão.
O trade-off: MLM cria excelente compreensão (bom para classificação, busca, NER) mas não consegue gerar texto fluentemente (prever tokens mascarados não é o mesmo que gerar uma sequência). LM causal (prever o próximo token da esquerda para a direita) gera fluentemente mas compreende menos profundamente (só vê contexto à esquerda). Essa divisão impulsionou a divergência encoder-vs-decoder no NLP. LLMs modernos são todos causais (decoder-only) porque geração é mais comercialmente valiosa, mas modelos treinados com MLM continuam sendo a espinha dorsal de busca e classificação.