BERT：定义与含义 — AI 维基

Google于2018年推出的基于Transformer的模型，通过引入双向预训练彻底改变了NLP——每个token都能关注其他所有token，使模型获得深层的上下文理解。BERT是纯编码器模型：擅长理解文本（分类、搜索、命名实体识别），但无法像GPT或Claude那样生成文本。

为什么重要

BERT是现代NLP时代最具影响力的论文。它证明了在无标注文本上预训练然后在特定任务上微调可以碾压所有现有基准。尽管LLM已经抢了风头，但BERT系列模型仍然支撑着大多数生产级搜索引擎、嵌入系统和分类管道，因为它们比LLM更小、更快、更便宜（用于非生成任务时）。

深度解析

BERT的训练使用两个目标：掩码语言建模（MLM）——随机遮盖15%的token并从上下文中预测它们——和下一句预测（NSP）——预测两个句子是否连续。MLM迫使模型进行双向理解，因为模型必须同时使用左侧和右侧上下文来预测被遮盖的词。这与GPT的从左到右方法有根本区别。

为什么BERT仍然重要

在LLM时代，BERT家族模型（RoBERTa、DeBERTa、DistilBERT）仍然是生产级NLP的支柱。它们比LLM小100倍（1.1亿至3.4亿参数 vs. 数十亿），推理速度快10倍，在不需要生成的任务上往往表现更好。RAG和语义搜索中使用的大多数嵌入模型都是BERT的后代。Google搜索在转向更大模型之前广泛使用了BERT。

BERT vs. GPT：架构分野

BERT（纯编码器，双向）和GPT（纯解码器，从左到右）代表两种理念。BERT一次看到整个输入——非常适合理解。GPT只看到之前的内容——非常适合生成。该领域最初认为编码器-解码器（T5）会通过结合两者而胜出。结果是纯解码器（GPT方式）在LLM中胜出，因为它的扩展更加简洁，并且你可以通过巧妙的提示来近似双向理解。

BERT

为什么重要

深度解析

为什么BERT仍然重要

BERT vs. GPT：架构分野

相关概念