語言偵測：定義與含義 — AI 維基

自動識別文字是用哪種語言撰寫的。「Bonjour le monde」→ 法語。「こんにちは世界」→ 日語。現代模型僅需幾個詞就能區分 100 多種語言，處理混合語言文字（語碼轉換），並識別高度相似的語言（挪威語 vs. 丹麥語、馬來語 vs. 印尼語）。

為什麼重要

語言偵測是任何多語言流程中不可或缺的第一步：在翻譯、路由到正確模型或應用語言特定處理之前，你需要先知道輸入是什麼語言。它被應用在搜尋引擎、客戶支援路由、內容審核，以及每一個處理全球使用者文字的系統中。

深度解析

簡單的方法使用字元 n-gram 統計：每種語言都有獨特的字元模式（「th」在英語中常見，「tion」在法語中常見，「ung」在德語中常見）。FastText 的語言識別模型使用字元 n-gram 加上淺層神經網路，可以從短短一個句子中以高準確率識別 176 種語言。對於非常短的文字（幾個詞），準確率會下降，因為訊號不足。

困難案例

某些語言對極難區分：塞爾維亞語（西里爾字母）vs. 塞爾維亞語（拉丁字母）vs. 克羅埃西亞語 vs. 波士尼亞語共享大部分詞彙和文法。簡體中文 vs. 繁體中文需要檢查特定的用字選擇。像「no」這樣的短曖昧文字可能是英語、西班牙語、義大利語或葡萄牙語。語碼轉換文字（「I went to the tienda to buy leche」）在句子中混合語言。穩健的系統透過統計信心分數而非硬性分類來處理這些邊緣案例。

實際應用

對於大多數應用場景，Google 的 CLD3、FastText 的 lid.176.bin 或 Python 的 langdetect 函式庫已提供足夠的準確率。LLM 也能作為訓練的副產品偵測語言，但用 70B 模型來做語言偵測就像用電鋸切奶油。實用的架構是：先做快速語言偵測（FastText，<1ms），然後路由到語言特定的處理流程。