Zubnet AI學習Wiki › OCR
使用AI

OCR

別名:光學字元辨識、文字辨識
從影像中擷取文字——文件照片、螢幕截圖、標誌、手寫筆記,或任何包含文字的影像。現代 OCR 結合了文字偵測(找到影像中文字出現的位置)和文字辨識(讀取文字內容)。深度學習 OCR 在處理彎曲文字、多語言、各種字型和低品質影像方面遠優於舊式規則型方法。

為什麼重要

OCR 將實體世界數位化。掃描收據用於費用追蹤、讀取文件用於歸檔、從表單擷取資料、即時翻譯標誌,以及使基於影像的 PDF 可搜尋,這些都依賴 OCR。結合 LLM,OCR 實現了精密的文件理解——不僅僅是閱讀文字,而是理解發票、合約和報告。

深度解析

現代 OCR 管線有兩個階段:偵測(使用 CRAFT 或 DBNet 等模型找到文字區域)和辨識(使用 CRNN 或基於 Transformer 的模型讀取每個區域中的文字)。端到端方法(如 PaddleOCR、EasyOCR)結合了兩個階段。對於結構化文件,專用模型(LayoutLM、Donut)理解文字內容和空間佈局,辨識出發票上的「總計:$42.50」與段落中相同文字的含義不同。

視覺 LLM 作為 OCR

多模態 LLM(Claude、GPT-4V、Gemini)作為其視覺能力的附帶效果,已在 OCR 方面變得非常出色。你可以上傳影像並詢問「讀取此影像中的所有文字」或「從這張收據中擷取表格」。對於具有混合佈局、手寫和多語言的複雜文件,視覺 LLM 通常優於專用 OCR 系統,因為它們理解上下文且能處理模糊性。代價是速度和成本——專用 OCR 在批量處理時快 100 倍。

挑戰

仍然困難的問題:手寫辨識(特別是草書或潦草的手寫)、退化的歷史文件、複雜背景中的文字(標誌、衣服、產品上的自然場景文字),以及具有複雜字元組合的文字系統(中文、阿拉伯文、天城文)。準確度因語言和文字系統而異——拉丁文字 OCR 幾乎已解決,但 CJK 和從右到左的文字仍有明顯的錯誤率。

相關概念

← 所有術語
ESC
Start typing to search...