詞嵌入：定義與含義 — AI 維基

詞的密集向量表示，其中含義相似的詞具有相似的向量。Word2Vec（2013 年）和 GloVe（2014 年）開創了這個領域：它們在詞共現模式上訓練，產生向量，使得「king − man + woman ≈ queen」成立。詞嵌入是現代上下文嵌入（BERT、sentence-transformers）的前身，在理解神經網路如何表示語言方面仍然是基礎性的。

為什麼重要

詞嵌入是使神經 NLP 變得實用的突破。在它們之前，詞被表示為獨熱向量（沒有相似性的概念）。詞嵌入證明了分散式表示可以捕捉意義、類比和語意關係。這個洞見 — 將離散符號表示為學習到的連續向量 — 是所有現代語言模型的基礎。

深度解析

Word2Vec（Mikolov 等人，2013 年，Google）透過從上下文預測詞（CBOW）或從詞預測上下文（Skip-gram）進行訓練。GloVe（Pennington 等人，2014 年，Stanford）對詞共現矩陣進行分解。兩者產生相似的結果：100–300 維的向量，其中餘弦相似度與語意相似度相關。這些向量捕捉了非凡的關係：國家對映到首都，動詞對映到時態，類比可以透過向量運算來解決。

靜態 vs. 上下文

Word2Vec 和 GloVe 對每個詞產生一個向量，不管上下文如何。「Bank」無論是指「河岸」還是「銀行」都得到相同的嵌入。上下文嵌入（ELMo，然後 BERT）透過根據上下文產生不同的表示來解決這個問題。現代句子嵌入（來自 BGE、E5 等模型）更進一步，將整個句子嵌入到向量中。每一代都改進了上一代，但核心想法 — 意義即向量 — 始於 Word2Vec。

遺產

Word2Vec 最大的貢獻不是演算法本身，而是展示了神經網路可以從原始文本中學習有用的語言表示。這個概念驗證激發了從詞向量到句子向量到上下文嵌入到完整語言模型的進展。每個 LLM 的嵌入層都是詞嵌入的直接後裔：一個將離散 token 對映到學習到的連續向量的查找表，只是規模大得多。

詞嵌入

為什麼重要

深度解析

靜態 vs. 上下文

遺產

相關概念