Zubnet AI學習Wiki › 遮罩語言建模
訓練

遮罩語言建模

別名:MLM、遮罩 LM、填空任務

一種自監督訓練目標,將輸入中的隨機 token 替換為 [MASK] token,模型必須從上下文中預測原始 token。BERT 推廣了 MLM:遮罩 15% 的 token,使用雙向注意力同時查看左側和右側上下文,預測遮罩的詞。這創建了強大的文本理解模型(相對於文本生成模型)。

為什麼重要

MLM 是創建 BERT 及整個編碼器模型家族的訓練目標,這些模型至今仍為大多數生產環境中的搜尋、分類和嵌入系統提供動力。理解 MLM 與因果語言建模(下一個 token 預測)的區別,解釋了理解模型(BERT)和生成模型(GPT)之間的基本分歧 — 以及為什麼每種模型在不同任務上表現出色。

深度解析

流程:取一個文本序列,隨機選擇 15% 的位置。對於這些位置:80% 替換為 [MASK],10% 替換為隨機 token,10% 保持不變。模型必須預測每個選定位置的原始 token。80/10/10 的分配防止模型學習只關注 [MASK] token,因為這些在實際使用中不會出現。

雙向上下文

MLM 相對於因果 LM 的關鍵優勢:模型在做預測時同時看到左側和右側的上下文。對於句子「The [MASK] sat on the mat」,模型同時使用「The」(左側上下文)和「sat on the mat」(右側上下文)來預測「cat」。這種雙向理解是為什麼 BERT 風格的模型在理解任務中產生比從左到右模型更豐富的表示。

MLM vs. 因果 LM

權衡:MLM 創造了出色的理解能力(適合分類、搜尋、命名實體識別),但無法流暢地生成文本(預測遮罩 token 與生成序列不同)。因果 LM(從左到右預測下一個 token)生成流暢但理解較淺(只看到左側上下文)。這種分歧推動了 NLP 中編碼器與解碼器的分化。現代 LLM 全部是因果的(僅解碼器),因為生成在商業上更有價值,但 MLM 訓練的模型仍然是搜尋和分類的骨幹。

相關概念

← 所有術語
← 過擬合 量化 →