資訊擷取：定義與含義 — AI 維基

從非結構化文字中自動擷取結構化資訊。給定一篇新聞文章，擷取：誰做了什麼、何時、何地、為什麼。給定一份合約，擷取：當事人、日期、義務和金額。IE 結合了 NER（尋找實體）、關係擷取（尋找實體間的連結）和事件擷取（尋找發生了什麼）為一個統一的流程。

為什麼重要

世界上大部分的資訊被困在非結構化文字中——電子郵件、報告、文章、法律文件、醫療記錄。資訊擷取將這些文字轉化為可搜尋、可分析、可執行的結構化資料。它是讓你能對一堆文件提出資料庫式問題的技術。

深度解析

傳統的 IE 流程有三個階段：實體擷取（找出所有提及的人物、組織、日期、金額）、關係擷取（確定關係：「公司 X 以 $Z 收購了公司 Y」）、以及共指消解（辨識「該公司」、「Apple」和「它」都指同一實體）。每個階段都建立在前一階段之上，以產生結構化的關聯資訊。

LLM 改變了一切

LLM 將 IE 流程壓縮成一個提示：「從這段文字中擷取所有公司、人物、金額和日期。對每一項，識別它們之間的關係。以 JSON 格式回傳。」這對常見的擷取任務效果驚人地好，且不再需要為每個子任務建立單獨的模型。代價是：LLM 擷取比專用模型更慢、更昂貴，且輸出格式較不可預測（結構化輸出模式有所幫助）。

文件理解

現代 IE 超越純文字：文件理解模型（LayoutLM、Donut）透過同時理解文字內容和空間版面，從視覺豐富的文件（發票、收據、表單）中擷取資訊。發票右下角的「Total: $42.50」與正文段落中相同的文字含義不同。這些模型結合 OCR、版面分析和 NLP，從真實世界的文件中擷取結構化資料。