BERT：定義與含義 — AI 維基

Google 於 2018 年推出的基於 Transformer 的模型，透過引入雙向預訓練徹底改變了自然語言處理——每個 token 都能關注其他所有 token，使模型具有深層的上下文理解能力。BERT 是一個僅編碼器模型：它擅長理解文本（分類、搜索、命名實體辨識），但不能像 GPT 或 Claude 那樣生成文本。

為什麼重要

BERT 是現代時期最具影響力的 NLP 論文。它證明了在未標註文本上預訓練然後在特定任務上微調可以碾壓每一個現有基準。即使大型語言模型搶走了焦點，BERT 類型的模型仍然驅動著大多數生產環境中的搜索引擎、嵌入系統和分類流程，因為對於非生成式任務來說，它們更小、更快、更便宜。

深度解析

BERT 的訓練使用兩個目標：遮蔽語言模型（MLM）——隨機遮蔽 15% 的 token 並從上下文預測它們——以及下一句預測（NSP）——預測兩個句子是否連續。MLM 強制雙向理解，因為模型必須同時使用左右上下文來預測被遮蔽的詞。這與 GPT 的從左到右方法根本不同。

BERT 為何仍然重要

在 LLM 時代，BERT 家族模型（RoBERTa、DeBERTa、DistilBERT）仍然是生產 NLP 的骨幹。它們比 LLM 小 100 倍（1.1 億到 3.4 億參數，相比數十億），推理速度快 10 倍，在不需要生成的任務上往往更好。大多數用於 RAG 和語義搜索的嵌入模型都是 BERT 的後代。Google 搜索在過渡到更大模型之前曾廣泛使用 BERT。

BERT 與 GPT：架構分裂

BERT（僅編碼器、雙向）和 GPT（僅解碼器、從左到右）代表兩種哲學。BERT 一次看到整個輸入——非常適合理解。GPT 只看到前面的內容——非常適合生成。該領域最初認為編碼器-解碼器（T5）會透過結合兩者而勝出。結果是僅解碼器（GPT 方法）在 LLM 中獲勝，因為它更易於擴展，而且你可以透過巧妙的提示來近似雙向理解。

BERT

為什麼重要

深度解析

BERT 為何仍然重要

BERT 與 GPT：架構分裂

相關概念