OCR：定義與含義 — AI 維基

從影像中擷取文字——文件照片、螢幕截圖、標誌、手寫筆記，或任何包含文字的影像。現代 OCR 結合了文字偵測（找到影像中文字出現的位置）和文字辨識（讀取文字內容）。深度學習 OCR 在處理彎曲文字、多語言、各種字型和低品質影像方面遠優於舊式規則型方法。

為什麼重要

OCR 將實體世界數位化。掃描收據用於費用追蹤、讀取文件用於歸檔、從表單擷取資料、即時翻譯標誌，以及使基於影像的 PDF 可搜尋，這些都依賴 OCR。結合 LLM，OCR 實現了精密的文件理解——不僅僅是閱讀文字，而是理解發票、合約和報告。

深度解析

現代 OCR 管線有兩個階段：偵測（使用 CRAFT 或 DBNet 等模型找到文字區域）和辨識（使用 CRNN 或基於 Transformer 的模型讀取每個區域中的文字）。端到端方法（如 PaddleOCR、EasyOCR）結合了兩個階段。對於結構化文件，專用模型（LayoutLM、Donut）理解文字內容和空間佈局，辨識出發票上的「總計：$42.50」與段落中相同文字的含義不同。

視覺 LLM 作為 OCR

多模態 LLM（Claude、GPT-4V、Gemini）作為其視覺能力的附帶效果，已在 OCR 方面變得非常出色。你可以上傳影像並詢問「讀取此影像中的所有文字」或「從這張收據中擷取表格」。對於具有混合佈局、手寫和多語言的複雜文件，視覺 LLM 通常優於專用 OCR 系統，因為它們理解上下文且能處理模糊性。代價是速度和成本——專用 OCR 在批量處理時快 100 倍。

挑戰

仍然困難的問題：手寫辨識（特別是草書或潦草的手寫）、退化的歷史文件、複雜背景中的文字（標誌、衣服、產品上的自然場景文字），以及具有複雜字元組合的文字系統（中文、阿拉伯文、天城文）。準確度因語言和文字系統而異——拉丁文字 OCR 幾乎已解決，但 CJK 和從右到左的文字仍有明顯的錯誤率。

OCR

為什麼重要

深度解析

視覺 LLM 作為 OCR

挑戰

相關概念