Zubnet AI学习Wiki › 掩码语言建模
训练

掩码语言建模

别名:MLM、掩码LM、完形填空
一种自监督训练目标,将输入中的随机token替换为[MASK] token,模型必须从上下文中预测原始token。BERT推广了MLM:掩码15%的token,使用双向注意力同时查看左右上下文,并预测被掩码的词。这创建了强大的文本理解模型(而非文本生成模型)。

为什么重要

MLM是创建BERT及整个编码器模型家族的训练目标,这些模型至今仍驱动着大多数生产级搜索、分类和嵌入系统。理解MLM与因果语言建模(下一token预测)的区别解释了理解模型(BERT)和生成模型(GPT)之间的根本分裂——以及各自为何擅长不同的任务。

深度解析

过程:取一个文本序列,随机选择15%的位置。对于这些位置:80%替换为[MASK],10%替换为随机token,10%保持不变。模型必须预测每个选定位置的原始token。80/10/10的分配防止模型只学习关注[MASK] token,而[MASK]在实际使用中不会出现。

双向上下文

MLM相对于因果LM的关键优势:模型在做预测时能看到左右两侧的上下文。对于句子"The [MASK] sat on the mat",模型同时使用"The"(左侧上下文)和"sat on the mat"(右侧上下文)来预测"cat"。这种双向理解是BERT类模型在理解任务上产生比从左到右模型更丰富表示的原因。

MLM vs. 因果LM

权衡:MLM创造了优秀的理解能力(适合分类、搜索、NER),但无法流畅地生成文本(预测被掩码的token与生成序列不同)。因果LM(从左到右预测下一token)生成流畅但理解不够深入(只能看到左侧上下文)。这种分裂推动了NLP中编码器与解码器的分化。现代LLM都是因果的(仅解码器),因为生成更具商业价值,但MLM训练的模型仍然是搜索和分类的骨干。

相关概念

← 所有术语
← 推理 提示模板 →