Zubnet AI学习Wiki › OCR
使用AI

OCR

别名:光学字符识别、文字识别
从图像中提取文字——文档照片、截图、标志、手写笔记,或任何包含文字的图像。现代OCR结合了文字检测(找到文字在图像中出现的位置)和文字识别(读取文字内容)。深度学习OCR在处理弯曲文字、多语言、多种字体和低质量图像方面远优于旧的基于规则的方法。

为什么重要

OCR将物理世界数字化。扫描收据用于报销、读取文档用于归档、从表单提取数据、实时翻译标志,以及使基于图像的PDF可搜索,都依赖于OCR。结合LLM后,OCR能实现复杂的文档理解——不仅是读取文字,而是理解发票、合同和报告。

深度解析

现代OCR流水线有两个阶段:检测(使用CRAFT或DBNet等模型找到文字区域)和识别(使用CRNN或基于Transformer的模型读取每个区域的文字)。端到端方法(如PaddleOCR、EasyOCR)将两个阶段合并。对于结构化文档,专用模型(LayoutLM、Donut)同时理解文字内容和空间布局,能识别发票上的“合计:$42.50”与段落中的相同文字含义不同。

视觉LLM作为OCR

多模态LLM(Claude、GPT-4V、Gemini)作为视觉能力的副产品,在OCR方面变得非常出色。你可以上传图片并询问“读取这张图中的所有文字”或“从这张收据中提取表格”。对于布局混合、手写和多语言的复杂文档,视觉LLM通常优于专用OCR系统,因为它们理解上下文并能处理歧义。权衡是速度和成本——专用OCR在批量处理时快100倍。

挑战

仍然困难的问题:手写识别(特别是草书或潦草的笔迹)、退化的历史文档、复杂背景中的文字(标志、衣服、产品上的野外文字),以及复杂字符组合的文字系统(中文、阿拉伯文、天城文)。准确率因语言和文字系统差异显著——拉丁字母OCR几乎已解决,但CJK和从右到左的文字系统仍有显著的错误率。

← 所有术语