傳統的 IE 流程有三個階段:實體擷取(找出所有提及的人物、組織、日期、金額)、關係擷取(確定關係:「公司 X 以 $Z 收購了公司 Y」)、以及共指消解(辨識「該公司」、「Apple」和「它」都指同一實體)。每個階段都建立在前一階段之上,以產生結構化的關聯資訊。
LLM 將 IE 流程壓縮成一個提示:「從這段文字中擷取所有公司、人物、金額和日期。對每一項,識別它們之間的關係。以 JSON 格式回傳。」這對常見的擷取任務效果驚人地好,且不再需要為每個子任務建立單獨的模型。代價是:LLM 擷取比專用模型更慢、更昂貴,且輸出格式較不可預測(結構化輸出模式有所幫助)。
現代 IE 超越純文字:文件理解模型(LayoutLM、Donut)透過同時理解文字內容和空間版面,從視覺豐富的文件(發票、收據、表單)中擷取資訊。發票右下角的「Total: $42.50」與正文段落中相同的文字含義不同。這些模型結合 OCR、版面分析和 NLP,從真實世界的文件中擷取結構化資料。