Masked Language Modeling: Definição e significado — Wiki de IA

Um objetivo de treinamento auto-supervisionado onde tokens aleatórios na entrada são substituídos por um token [MASK], e o modelo deve prever os tokens originais a partir do contexto. O BERT popularizou o MLM: mascare 15% dos tokens, use atenção bidirecional para olhar tanto o contexto à esquerda quanto à direita, e preveja as palavras mascaradas. Isso cria modelos poderosos de compreensão de texto (ao contrário de modelos de geração de texto).

Por que isso importa

MLM é o objetivo de treinamento que criou o BERT e toda a família de modelos encoder que ainda sustentam a maioria dos sistemas de busca, classificação e embedding em produção. Entender MLM vs. modelagem de linguagem causal (previsão do próximo token) explica a divisão fundamental entre modelos de compreensão (BERT) e modelos de geração (GPT) — e por que cada um se destaca em tarefas diferentes.

Em profundidade

O processo: pegue uma sequência de texto, selecione aleatoriamente 15% das posições. Para essas posições: 80% são substituídas por [MASK], 10% são substituídas por um token aleatório, 10% são mantidas inalteradas. O modelo deve prever o token original em cada posição selecionada. A divisão 80/10/10 impede que o modelo aprenda a prestar atenção apenas aos tokens [MASK], que não aparecem durante o uso real.

Contexto Bidirecional

A principal vantagem do MLM sobre LM causal: o modelo vê tanto o contexto à esquerda quanto à direita ao fazer previsões. Para a frase "O [MASK] sentou no tapete", o modelo usa tanto "O" (contexto esquerdo) quanto "sentou no tapete" (contexto direito) para prever "gato". Essa compreensão bidirecional é o motivo pelo qual modelos estilo BERT produzem representações mais ricas que modelos da esquerda para a direita para tarefas de compreensão.

MLM vs. LM Causal

O trade-off: MLM cria excelente compreensão (bom para classificação, busca, NER) mas não consegue gerar texto fluentemente (prever tokens mascarados não é o mesmo que gerar uma sequência). LM causal (prever o próximo token da esquerda para a direita) gera fluentemente mas compreende menos profundamente (só vê contexto à esquerda). Essa divisão impulsionou a divergência encoder-vs-decoder no NLP. LLMs modernos são todos causais (decoder-only) porque geração é mais comercialmente valiosa, mas modelos treinados com MLM continuam sendo a espinha dorsal de busca e classificação.

Masked Language Modeling

Por que isso importa

Em profundidade

Contexto Bidirecional

MLM vs. LM Causal

Conceitos relacionados