Zubnet AI學習Wiki › Information Extraction
使用AI

資訊擷取

別名:IE、結構化擷取
從非結構化文字中自動擷取結構化資訊。給定一篇新聞文章,擷取:誰做了什麼、何時、何地、為什麼。給定一份合約,擷取:當事人、日期、義務和金額。IE 結合了 NER(尋找實體)、關係擷取(尋找實體間的連結)和事件擷取(尋找發生了什麼)為一個統一的流程。

為什麼重要

世界上大部分的資訊被困在非結構化文字中——電子郵件、報告、文章、法律文件、醫療記錄。資訊擷取將這些文字轉化為可搜尋、可分析、可執行的結構化資料。它是讓你能對一堆文件提出資料庫式問題的技術。

深度解析

傳統的 IE 流程有三個階段:實體擷取(找出所有提及的人物、組織、日期、金額)、關係擷取(確定關係:「公司 X 以 $Z 收購了公司 Y」)、以及共指消解(辨識「該公司」、「Apple」和「它」都指同一實體)。每個階段都建立在前一階段之上,以產生結構化的關聯資訊。

LLM 改變了一切

LLM 將 IE 流程壓縮成一個提示:「從這段文字中擷取所有公司、人物、金額和日期。對每一項,識別它們之間的關係。以 JSON 格式回傳。」這對常見的擷取任務效果驚人地好,且不再需要為每個子任務建立單獨的模型。代價是:LLM 擷取比專用模型更慢、更昂貴,且輸出格式較不可預測(結構化輸出模式有所幫助)。

文件理解

現代 IE 超越純文字:文件理解模型(LayoutLM、Donut)透過同時理解文字內容和空間版面,從視覺豐富的文件(發票、收據、表單)中擷取資訊。發票右下角的「Total: $42.50」與正文段落中相同的文字含義不同。這些模型結合 OCR、版面分析和 NLP,從真實世界的文件中擷取結構化資料。

← 所有術語
ESC