NER通常被构建为序列标注任务:每个token获得一个标签,如B-PER(人名开头)、I-PER(人名内部)、O(非实体)。BIO标注方案处理多词实体:“New”得到B-LOC,“York”得到I-LOC。微调的BERT模型是高精度NER的标准,尽管spaCy的内置NER因快速且效果够用而广受欢迎。
通用NER模型处理常见实体类型(人名、组织、地点、日期)。领域特定应用需要自定义类型:医学NER提取药物、症状和剂量。法律NER提取案件编号、法规和当事方。金融NER提取股票代码、财务指标和监管引用。这些都需要领域特定的训练数据,标注成本高昂但在专业场景中能显著提升抽取质量。
LLM可以通过提示执行NER:“从这段文本中提取所有人名和组织,以JSON格式返回。”这比专用NER模型更慢更贵,但无需训练数据就能处理新颖的实体类型,并且开箱即用地支持多语言。对于处理数百万文档的生产系统,专用模型在成本上胜出。对于临时抽取或不常见的实体类型,LLM在灵活性上胜出。