在大部分历史时期,自然语言处理(NLP)都是一种围绕“计算机无法理解词语含义”这一事实的巧妙工程实践。最早的系统依赖于词袋模型——字面意义上统计每个词在文档中出现的频率,完全忽略词序。TF-IDF在此基础上通过赋予罕见词比常见词更高的权重,使搜索和文档检索在方法如此粗略的情况下出人意料地有效。2013年,word2vec的出现改变了这一切,它通过学习密集向量表示,使语义相近的词在向量空间中彼此靠近。首次有模型能够捕捉到“国王”减去“男人”加上“女人”大致等于“女王”的概念。循环神经网络(RNN)和长短期记忆网络(LSTM)通过按顺序处理文本并维护一个携带句子信息的隐藏状态,进一步推动了该领域的发展。它们虽然有效,但训练速度慢,难以处理长距离依赖关系,每个NLP任务——翻译、摘要、问答——都需要其专属的架构。
2017年的论文《Attention Is All You Need》不仅引入了一种新架构,还将整个专门模型生态系统整合为一个通用设计。Transformer的自注意力机制使模型能够同时衡量输入中每个词与其他词的相关性,消除了RNN的顺序瓶颈。没人完全预料到这种架构的扩展性如此之好。只要在足够多的文本上预训练一个大型Transformer,它就能在没有明确训练任何任务的情况下学习翻译、摘要、情感分析、代码生成等数十种任务。2018年,BERT在理解方面展示了这一点;2019年,GPT-2在生成方面展示了这一点;到2023年,模式已经清晰:通过增加数据和计算量扩展单一架构,实际上统一了整个NLP领域。
尽管大型语言模型(LLM)占据主导地位,经典NLP任务并未消失——它们只是改变了应用场景。命名实体识别(从文本中提取名称、日期、组织)、词性标注、情感分析和文本分类仍然广泛存在于生产系统中。问题是何时使用专用模型,何时直接询问LLM。如果你每天处理数百万条客户评论以提取情感,一个在单块GPU上运行的微调BERT分类器将比将每条评论发送给GPT-4便宜且快得多。如果你构建一次性分析流程或处理需要细致判断的任务,调用LLM更有意义。经济性倾向于在大规模场景中使用专用模型,而在灵活性和低量级场景中使用LLM。
这引出了流程问题。传统NLP工作流是显式流程:对文本进行分词,应用词性标注,运行依存句法分析,提取实体,分类意图。spaCy和NLTK等工具就是为此设计的,当需要高吞吐量的确定性和可检查处理时,它们仍然非常出色。另一种方法——将原始文本直接扔给LLM并要求它一次性完成所有任务——看似简单但存在权衡。LLM具有非确定性,每次调用成本高,且当出错时难以调试。实际上,2026年的大多数生产NLP系统都是混合型:对需要速度和一致性的部分使用结构化流程,对需要推理和灵活性的部分调用LLM。一个客户支持系统可能使用spaCy提取实体并分类意图,然后仅在生成实际回复时交给LLM。
多语言NLP已经取得了长足进步,但英语与其他语言之间的差距依然顽固存在。mBERT、XLM-R以及GPT和Gemini的多语言变体能够处理数十种语言,对英语数据进行训练并将模型应用于法语或印地语等高资源语言的跨语言迁移效果出人意料地好。问题是长尾效应。地球上约有7000种语言,其中绝大多数几乎没有可用于训练的数字文本。主要在英语上训练的分词器会将泰语、高棉语或因纽特语等语言切分成荒谬长的token序列,这会降低性能并增加成本。即使是中等资源语言如越南语或斯瓦希里语,模型质量与英语相比也会明显下降。根本原因是数据:NLP模型从文本中学习,而互联网内容绝大多数是英语。解决这个问题不仅是技术挑战——更是关于哪些语言能参与AI革命,哪些会被抛在后面的问题。