NER 通常被構建為序列標記任務:每個 token 獲得一個標籤,如 B-PER(人名開頭)、I-PER(人名中間)、O(非實體)。BIO 標記方案處理多詞實體:「New」獲得 B-LOC,「York」獲得 I-LOC。微調的 BERT 模型是高精度 NER 的標準,儘管 spaCy 的內建 NER 在需要快速且足夠好的擷取時很受歡迎。
通用 NER 模型處理常見的實體類型(人名、組織、地點、日期)。領域特定的應用需要自訂類型:醫療 NER 擷取藥物、症狀和劑量。法律 NER 擷取案件編號、法規和當事人。金融 NER 擷取股票代碼、財務指標和監管參考。這些需要領域特定的訓練資料,標注成本高昂,但能顯著提升專業領域的擷取品質。
LLM 可以透過提示來執行 NER:「從這段文字中提取所有人名和組織,並以 JSON 格式返回。」這比專用 NER 模型慢且更昂貴,但能在無需訓練資料的情況下處理新穎的實體類型,且能開箱即用地跨語言運作。對於處理數百萬份文件的生產系統,專用模型在成本上更有優勢。對於臨時擷取或不常見的實體類型,LLM 在靈活性上更有優勢。