Zubnet AI學習Wiki › Named Entity Recognition
使用AI

Named Entity Recognition

別名:NER、實體擷取
辨識和分類文字中的命名實體——人名、組織、地點、日期、金額和其他專有名詞。在「Apple 宣布在慕尼黑投資 30 億美元,時間是週二」中,NER 辨識出 Apple(組織)、30 億美元(金額)、慕尼黑(地點)和週二(日期)。它是資訊擷取、搜尋和知識圖譜建構中的基礎 NLP 任務。

為什麼重要

NER 是從非結構化文字中進行結構化資訊擷取的骨幹。每個搜尋引擎、新聞聚合器和情報系統都使用 NER 來理解文件的內容。它也是從文字建構知識圖譜的第一步——你無法在尚未辨識的實體之間建立關係。

深度解析

NER 通常被構建為序列標記任務:每個 token 獲得一個標籤,如 B-PER(人名開頭)、I-PER(人名中間)、O(非實體)。BIO 標記方案處理多詞實體:「New」獲得 B-LOC,「York」獲得 I-LOC。微調的 BERT 模型是高精度 NER 的標準,儘管 spaCy 的內建 NER 在需要快速且足夠好的擷取時很受歡迎。

領域特定 NER

通用 NER 模型處理常見的實體類型(人名、組織、地點、日期)。領域特定的應用需要自訂類型:醫療 NER 擷取藥物、症狀和劑量。法律 NER 擷取案件編號、法規和當事人。金融 NER 擷取股票代碼、財務指標和監管參考。這些需要領域特定的訓練資料,標注成本高昂,但能顯著提升專業領域的擷取品質。

使用 LLM 進行 NER

LLM 可以透過提示來執行 NER:「從這段文字中提取所有人名和組織,並以 JSON 格式返回。」這比專用 NER 模型慢且更昂貴,但能在無需訓練資料的情況下處理新穎的實體類型,且能開箱即用地跨語言運作。對於處理數百萬份文件的生產系統,專用模型在成本上更有優勢。對於臨時擷取或不常見的實體類型,LLM 在靈活性上更有優勢。

相關概念

← 所有術語
ESC
Start typing to search...