使用AI

Information Extraction

别名：IE、结构化提取

从非结构化文本中自动提取结构化信息。给定一篇新闻文章，提取：谁做了什么，何时，在哪里，为什么。给定一份合同，提取：当事方、日期、义务和金额。IE结合了NER（找到实体）、关系提取（找到实体之间的联系）和事件提取（找到发生了什么）形成统一的管线。

为什么重要

世界上大部分信息都被困在非结构化文本中——电子邮件、报告、文章、法律文件、医疗记录。信息提取将这些文本转化为可以搜索、分析和操作的结构化数据。它是让你能够对一堆文档提出数据库式查询的技术。

深度解析

传统IE管线有三个阶段：实体提取（找到所有人物、组织、日期、金额的提及）、关系提取（确定关系：“X公司以Z美元收购了Y公司”）和共指消解（识别“该公司”、“苹果”和“它”都指同一个实体）。每个阶段都建立在前一个阶段之上，以产生结构化的、关联的信息。

LLM改变了一切

LLM将IE管线压缩为单个提示：“从这段文本中提取所有公司、人物、金额和日期。对于每个，识别它们的关系。以JSON返回。”这对于常见的提取任务效果非常好，并且消除了为每个子任务单独建模的需要。代价是：LLM提取比专用模型更慢、更昂贵，且输出格式不太可预测（结构化输出模式有所帮助）。

文档理解

现代IE超越了纯文本：文档理解模型（LayoutLM、Donut）从视觉丰富的文档（发票、收据、表单）中提取信息，同时理解文本内容和空间布局。发票右下角的“总计：$42.50”与正文段落中的相同文本含义不同。这些模型结合OCR、布局分析和NLP，从真实世界的文档中提取结构化数据。

相关概念

← 所有术语