BERT 的訓練使用兩個目標:遮蔽語言模型(MLM)——隨機遮蔽 15% 的 token 並從上下文預測它們——以及下一句預測(NSP)——預測兩個句子是否連續。MLM 強制雙向理解,因為模型必須同時使用左右上下文來預測被遮蔽的詞。這與 GPT 的從左到右方法根本不同。
在 LLM 時代,BERT 家族模型(RoBERTa、DeBERTa、DistilBERT)仍然是生產 NLP 的骨幹。它們比 LLM 小 100 倍(1.1 億到 3.4 億參數,相比數十億),推理速度快 10 倍,在不需要生成的任務上往往更好。大多數用於 RAG 和語義搜索的嵌入模型都是 BERT 的後代。Google 搜索在過渡到更大模型之前曾廣泛使用 BERT。
BERT(僅編碼器、雙向)和 GPT(僅解碼器、從左到右)代表兩種哲學。BERT 一次看到整個輸入——非常適合理解。GPT 只看到前面的內容——非常適合生成。該領域最初認為編碼器-解碼器(T5)會透過結合兩者而勝出。結果是僅解碼器(GPT 方法)在 LLM 中獲勝,因為它更易於擴展,而且你可以透過巧妙的提示來近似雙向理解。