BERT的训练使用两个目标:掩码语言建模(MLM)——随机遮盖15%的token并从上下文中预测它们——和下一句预测(NSP)——预测两个句子是否连续。MLM迫使模型进行双向理解,因为模型必须同时使用左侧和右侧上下文来预测被遮盖的词。这与GPT的从左到右方法有根本区别。
在LLM时代,BERT家族模型(RoBERTa、DeBERTa、DistilBERT)仍然是生产级NLP的支柱。它们比LLM小100倍(1.1亿至3.4亿参数 vs. 数十亿),推理速度快10倍,在不需要生成的任务上往往表现更好。RAG和语义搜索中使用的大多数嵌入模型都是BERT的后代。Google搜索在转向更大模型之前广泛使用了BERT。
BERT(纯编码器,双向)和GPT(纯解码器,从左到右)代表两种理念。BERT一次看到整个输入——非常适合理解。GPT只看到之前的内容——非常适合生成。该领域最初认为编码器-解码器(T5)会通过结合两者而胜出。结果是纯解码器(GPT方式)在LLM中胜出,因为它的扩展更加简洁,并且你可以通过巧妙的提示来近似双向理解。