命名实体识别：定义与含义 — AI 维基

识别和分类文本中的命名实体——人名、组织、地点、日期、金额和其他专有名词。在“苹果公司宣布在慕尼黑投资30亿美元”中，NER识别出苹果（组织）、30亿美元（金额）、慕尼黑（地点）和周二（日期）。这是信息抽取、搜索和知识图谱构建中的基础NLP任务。

为什么重要

NER是从非结构化文本中进行结构化信息抽取的支柱。每个搜索引擎、新闻聚合器和情报系统都使用NER来理解文档的内容。它也是从文本构建知识图谱的第一步——你无法在未识别的实体之间建立关系。

深度解析

NER通常被构建为序列标注任务：每个token获得一个标签，如B-PER（人名开头）、I-PER（人名内部）、O（非实体）。BIO标注方案处理多词实体：“New”得到B-LOC，“York”得到I-LOC。微调的BERT模型是高精度NER的标准，尽管spaCy的内置NER因快速且效果够用而广受欢迎。

领域特定NER

通用NER模型处理常见实体类型（人名、组织、地点、日期）。领域特定应用需要自定义类型：医学NER提取药物、症状和剂量。法律NER提取案件编号、法规和当事方。金融NER提取股票代码、财务指标和监管引用。这些都需要领域特定的训练数据，标注成本高昂但在专业场景中能显著提升抽取质量。

使用LLM进行NER

LLM可以通过提示执行NER：“从这段文本中提取所有人名和组织，以JSON格式返回。”这比专用NER模型更慢更贵，但无需训练数据就能处理新颖的实体类型，并且开箱即用地支持多语言。对于处理数百万文档的生产系统，专用模型在成本上胜出。对于临时抽取或不常见的实体类型，LLM在灵活性上胜出。