Named Entity Recognition（命名實體辨識）：定義與含義 — AI 維基

辨識和分類文字中的命名實體——人名、組織、地點、日期、金額和其他專有名詞。在「Apple 宣布在慕尼黑投資 30 億美元，時間是週二」中，NER 辨識出 Apple（組織）、30 億美元（金額）、慕尼黑（地點）和週二（日期）。它是資訊擷取、搜尋和知識圖譜建構中的基礎 NLP 任務。

為什麼重要

NER 是從非結構化文字中進行結構化資訊擷取的骨幹。每個搜尋引擎、新聞聚合器和情報系統都使用 NER 來理解文件的內容。它也是從文字建構知識圖譜的第一步——你無法在尚未辨識的實體之間建立關係。

深度解析

NER 通常被構建為序列標記任務：每個 token 獲得一個標籤，如 B-PER（人名開頭）、I-PER（人名中間）、O（非實體）。BIO 標記方案處理多詞實體：「New」獲得 B-LOC，「York」獲得 I-LOC。微調的 BERT 模型是高精度 NER 的標準，儘管 spaCy 的內建 NER 在需要快速且足夠好的擷取時很受歡迎。

領域特定 NER

通用 NER 模型處理常見的實體類型（人名、組織、地點、日期）。領域特定的應用需要自訂類型：醫療 NER 擷取藥物、症狀和劑量。法律 NER 擷取案件編號、法規和當事人。金融 NER 擷取股票代碼、財務指標和監管參考。這些需要領域特定的訓練資料，標注成本高昂，但能顯著提升專業領域的擷取品質。

使用 LLM 進行 NER

LLM 可以透過提示來執行 NER：「從這段文字中提取所有人名和組織，並以 JSON 格式返回。」這比專用 NER 模型慢且更昂貴，但能在無需訓練資料的情況下處理新穎的實體類型，且能開箱即用地跨語言運作。對於處理數百萬份文件的生產系統，專用模型在成本上更有優勢。對於臨時擷取或不常見的實體類型，LLM 在靈活性上更有優勢。

Named Entity Recognition

為什麼重要

深度解析

領域特定 NER

使用 LLM 進行 NER

相關概念