在 NLP 的大部分歷史中,這是一門圍繞著「電腦根本不知道詞語含義」這個事實的巧妙工程學。最早的系統依賴詞袋模型 (bag-of-words) 表示法 — 字面上就是計算每個詞在文檔中出現的頻率,並完全忽略詞序。TF-IDF 在這個基礎上做了改進,給罕見詞比常見詞更大的權重,這讓搜尋與文檔檢索在方法如此粗糙的情況下卻出人意料地有效。接著 word2vec 在 2013 年出現並改變了一切,它透過學習密集向量表示法,讓意義相近的詞在向量空間中彼此靠近。首次有模型能捕捉到「king」減去「man」再加上「woman」大致等於「queen」這件事。循環神經網絡 (RNN) 與長短期記憶網絡 (LSTM) 進一步推動了這個領域,它們按順序處理文本,並維持一個將資訊向前傳遞穿越句子的隱藏狀態。它們有效,但訓練速度慢、長距離依賴難以處理,而且每個 NLP 任務 — 翻譯、摘要、問答 — 都需要一套自己的專屬架構。
2017 年的「Attention Is All You Need」論文不只是引入了一種新架構 — 它把整個專門模型的生態系統坍縮成一個通用設計。Transformer 的自注意力機制讓模型能同時權衡輸入中每個詞與其他每個詞之間的相關性,消除了 RNN 的序列瓶頸。沒有人完全預料到這種架構的擴展性會這麼好。在足夠多的文本上預訓練一個大型 Transformer,它就能學會做翻譯、摘要、情感分析、程式碼生成,以及數十種其他任務,而且不需要明確地針對其中任何一項進行訓練。BERT 在 2018 年從理解的角度展示了這一點,GPT-2 在 2019 年從生成的角度展示了這一點,到了 2023 年模式已經很清楚:一個架構,加上更多資料與算力的擴展,已經有效地統一了整個 NLP 領域。
儘管大型語言模型 (LLM) 佔據主導地位,經典的 NLP 任務並沒有消失 — 它們只是換了脈絡。命名實體識別 (從文本中抓出名字、日期、組織)、詞性標註、情感分析與文本分類,在生產系統中仍然到處可見。問題是什麼時候該用一個專屬模型,什麼時候直接問 LLM 就好。如果你每天要處理數百萬條客戶評論來提取情感,一個經過微調的 BERT 分類器跑在單張 GPU 上,會比把每條評論送到 GPT-4 便宜且快上好幾個數量級。如果你在搭一條一次性的分析流水線,或處理一個需要細緻判斷的任務,呼叫 LLM 比較合理。經濟學的天平在大規模時傾向專屬模型,在低量與需要彈性時傾向 LLM。
這就引出了流水線的問題。傳統的 NLP 工作流是顯式的流水線:把文本分詞、做詞性標註、跑依存解析、抽取實體、分類意圖。spaCy 和 NLTK 這類工具就是為這種方法打造的,當你需要在高吞吐下進行確定性、可檢視的處理時,它們依然出色。另一種選擇 — 把原始文本丟給 LLM,要求它一次性處理所有事 — 在表面上很誘人,但有它的取捨。LLM 是非確定性的、每次呼叫都很貴,而且當它出錯時很難除錯。實際上,2026 年大多數生產級的 NLP 系統都是混合的:需要速度與一致性的部分用結構化流水線,需要推理與彈性的部分才呼叫 LLM。一個客服系統可能會用 spaCy 抽實體和分類意圖,然後只在實際生成回覆時才把工作交給 LLM。
多語言 NLP 已經走了很長一段路,但英文與其他語言之間的差距仍然頑固地真實。mBERT、XLM-R,以及 GPT 和 Gemini 的多語言版本,都能處理數十種語言;跨語言遷移 — 在英文資料上訓練然後把模型應用到法文或印地文 — 對高資源語言驚人地有效。問題在於長尾。地球上大約有 7000 種被使用的語言,絕大多數幾乎沒有可用來訓練的數位文本。主要在英文上訓練的分詞器,會把泰文、高棉文或因紐特文這類語言切成荒謬地長的 token 序列,這同時拉低了效能與成本效率。即使是越南文或斯瓦希里文這類中等資源語言,模型品質與英文相比也明顯下降。根本原因是資料:NLP 模型從文本中學習,而互聯網壓倒性地是英文。修正這件事不只是一個技術挑戰 — 而是「誰的語言可以參與 AI 革命、誰的語言被留在後面」這個問題。