Zubnet AI学习Wiki › 命名实体识别
使用AI

命名实体识别

别名:NER、实体抽取
识别和分类文本中的命名实体——人名、组织、地点、日期、金额和其他专有名词。在“苹果公司宣布在慕尼黑投资30亿美元”中,NER识别出苹果(组织)、30亿美元(金额)、慕尼黑(地点)和周二(日期)。这是信息抽取、搜索和知识图谱构建中的基础NLP任务。

为什么重要

NER是从非结构化文本中进行结构化信息抽取的支柱。每个搜索引擎、新闻聚合器和情报系统都使用NER来理解文档的内容。它也是从文本构建知识图谱的第一步——你无法在未识别的实体之间建立关系。

深度解析

NER通常被构建为序列标注任务:每个token获得一个标签,如B-PER(人名开头)、I-PER(人名内部)、O(非实体)。BIO标注方案处理多词实体:“New”得到B-LOC,“York”得到I-LOC。微调的BERT模型是高精度NER的标准,尽管spaCy的内置NER因快速且效果够用而广受欢迎。

领域特定NER

通用NER模型处理常见实体类型(人名、组织、地点、日期)。领域特定应用需要自定义类型:医学NER提取药物、症状和剂量。法律NER提取案件编号、法规和当事方。金融NER提取股票代码、财务指标和监管引用。这些都需要领域特定的训练数据,标注成本高昂但在专业场景中能显著提升抽取质量。

使用LLM进行NER

LLM可以通过提示执行NER:“从这段文本中提取所有人名和组织,以JSON格式返回。”这比专用NER模型更慢更贵,但无需训练数据就能处理新颖的实体类型,并且开箱即用地支持多语言。对于处理数百万文档的生产系统,专用模型在成本上胜出。对于临时抽取或不常见的实体类型,LLM在灵活性上胜出。

← 所有术语