词嵌入是使神经NLP实用化的突破。在它们之前,词被表示为独热向量(没有相似性概念)。词嵌入证明了分布式表示可以捕获含义、类比和语义关系。这一洞察——将离散符号表示为学习到的连续向量——是所有现代语言模型的基础。
Word2Vec(Mikolov et al., 2013, Google)通过从上下文预测词(CBOW)或从词预测上下文(Skip-gram)进行训练。GloVe(Pennington et al., 2014, Stanford)分解词共现矩阵。两者产生相似结果:100–300维向量,余弦相似度与语义相似度相关。这些向量捕获了显著的关系:国家映射到首都,动词映射到时态,类比可通过向量算术求解。
Word2Vec和GloVe为每个词产生一个向量,不考虑上下文。"Bank"无论是"river bank"还是"financial bank"都获得相同嵌入。上下文嵌入(ELMo,然后BERT)通过根据上下文产生不同表示来解决了这个问题。现代句子嵌入(来自BGE、E5等模型)更进一步,将整个句子嵌入为向量。每一代都改进了上一代,但核心思想——含义即向量——始于Word2Vec。
Word2Vec最大的贡献不是算法,而是证明了神经网络可以从原始文本中学习有用的语言表示。这个概念验证启发了从词向量到句子向量到上下文嵌入到完整语言模型的进程。每个LLM的嵌入层都是词嵌入的直接后代:将离散token映射到学习到的连续向量的查找表,只是规模大得多。