掩码语言建模：定义与含义 — AI 维基

一种自监督训练目标，将输入中的随机token替换为[MASK] token，模型必须从上下文中预测原始token。BERT推广了MLM：掩码15%的token，使用双向注意力同时查看左右上下文，并预测被掩码的词。这创建了强大的文本理解模型（而非文本生成模型）。

为什么重要

MLM是创建BERT及整个编码器模型家族的训练目标，这些模型至今仍驱动着大多数生产级搜索、分类和嵌入系统。理解MLM与因果语言建模（下一token预测）的区别解释了理解模型（BERT）和生成模型（GPT）之间的根本分裂——以及各自为何擅长不同的任务。

深度解析

过程：取一个文本序列，随机选择15%的位置。对于这些位置：80%替换为[MASK]，10%替换为随机token，10%保持不变。模型必须预测每个选定位置的原始token。80/10/10的分配防止模型只学习关注[MASK] token，而[MASK]在实际使用中不会出现。

双向上下文

MLM相对于因果LM的关键优势：模型在做预测时能看到左右两侧的上下文。对于句子"The [MASK] sat on the mat"，模型同时使用"The"（左侧上下文）和"sat on the mat"（右侧上下文）来预测"cat"。这种双向理解是BERT类模型在理解任务上产生比从左到右模型更丰富表示的原因。

MLM vs. 因果LM

权衡：MLM创造了优秀的理解能力（适合分类、搜索、NER），但无法流畅地生成文本（预测被掩码的token与生成序列不同）。因果LM（从左到右预测下一token）生成流畅但理解不够深入（只能看到左侧上下文）。这种分裂推动了NLP中编码器与解码器的分化。现代LLM都是因果的（仅解码器），因为生成更具商业价值，但MLM训练的模型仍然是搜索和分类的骨干。

掩码语言建模

为什么重要

深度解析

双向上下文

MLM vs. 因果LM

相关概念