遮罩語言建模：定義與含義 — AI 維基

一種自監督訓練目標，將輸入中的隨機 token 替換為 [MASK] token，模型必須從上下文中預測原始 token。BERT 推廣了 MLM：遮罩 15% 的 token，使用雙向注意力同時查看左側和右側上下文，預測遮罩的詞。這創建了強大的文本理解模型（相對於文本生成模型）。

為什麼重要

MLM 是創建 BERT 及整個編碼器模型家族的訓練目標，這些模型至今仍為大多數生產環境中的搜尋、分類和嵌入系統提供動力。理解 MLM 與因果語言建模（下一個 token 預測）的區別，解釋了理解模型（BERT）和生成模型（GPT）之間的基本分歧 — 以及為什麼每種模型在不同任務上表現出色。

深度解析

流程：取一個文本序列，隨機選擇 15% 的位置。對於這些位置：80% 替換為 [MASK]，10% 替換為隨機 token，10% 保持不變。模型必須預測每個選定位置的原始 token。80/10/10 的分配防止模型學習只關注 [MASK] token，因為這些在實際使用中不會出現。

雙向上下文

MLM 相對於因果 LM 的關鍵優勢：模型在做預測時同時看到左側和右側的上下文。對於句子「The [MASK] sat on the mat」，模型同時使用「The」（左側上下文）和「sat on the mat」（右側上下文）來預測「cat」。這種雙向理解是為什麼 BERT 風格的模型在理解任務中產生比從左到右模型更豐富的表示。

MLM vs. 因果 LM

權衡：MLM 創造了出色的理解能力（適合分類、搜尋、命名實體識別），但無法流暢地生成文本（預測遮罩 token 與生成序列不同）。因果 LM（從左到右預測下一個 token）生成流暢但理解較淺（只看到左側上下文）。這種分歧推動了 NLP 中編碼器與解碼器的分化。現代 LLM 全部是因果的（僅解碼器），因為生成在商業上更有價值，但 MLM 訓練的模型仍然是搜尋和分類的骨幹。

遮罩語言建模

為什麼重要

深度解析

雙向上下文

MLM vs. 因果 LM

相關概念