传统IE管线有三个阶段:实体提取(找到所有人物、组织、日期、金额的提及)、关系提取(确定关系:“X公司以Z美元收购了Y公司”)和共指消解(识别“该公司”、“苹果”和“它”都指同一个实体)。每个阶段都建立在前一个阶段之上,以产生结构化的、关联的信息。
LLM将IE管线压缩为单个提示:“从这段文本中提取所有公司、人物、金额和日期。对于每个,识别它们的关系。以JSON返回。”这对于常见的提取任务效果非常好,并且消除了为每个子任务单独建模的需要。代价是:LLM提取比专用模型更慢、更昂贵,且输出格式不太可预测(结构化输出模式有所帮助)。
现代IE超越了纯文本:文档理解模型(LayoutLM、Donut)从视觉丰富的文档(发票、收据、表单)中提取信息,同时理解文本内容和空间布局。发票右下角的“总计:$42.50”与正文段落中的相同文本含义不同。这些模型结合OCR、布局分析和NLP,从真实世界的文档中提取结构化数据。