OCR：定义与含义 — AI 维基

从图像中提取文字——文档照片、截图、标志、手写笔记，或任何包含文字的图像。现代OCR结合了文字检测（找到文字在图像中出现的位置）和文字识别（读取文字内容）。深度学习OCR在处理弯曲文字、多语言、多种字体和低质量图像方面远优于旧的基于规则的方法。

为什么重要

OCR将物理世界数字化。扫描收据用于报销、读取文档用于归档、从表单提取数据、实时翻译标志，以及使基于图像的PDF可搜索，都依赖于OCR。结合LLM后，OCR能实现复杂的文档理解——不仅是读取文字，而是理解发票、合同和报告。

深度解析

现代OCR流水线有两个阶段：检测（使用CRAFT或DBNet等模型找到文字区域）和识别（使用CRNN或基于Transformer的模型读取每个区域的文字）。端到端方法（如PaddleOCR、EasyOCR）将两个阶段合并。对于结构化文档，专用模型（LayoutLM、Donut）同时理解文字内容和空间布局，能识别发票上的“合计：$42.50”与段落中的相同文字含义不同。

视觉LLM作为OCR

多模态LLM（Claude、GPT-4V、Gemini）作为视觉能力的副产品，在OCR方面变得非常出色。你可以上传图片并询问“读取这张图中的所有文字”或“从这张收据中提取表格”。对于布局混合、手写和多语言的复杂文档，视觉LLM通常优于专用OCR系统，因为它们理解上下文并能处理歧义。权衡是速度和成本——专用OCR在批量处理时快100倍。

挑战

仍然困难的问题：手写识别（特别是草书或潦草的笔迹）、退化的历史文档、复杂背景中的文字（标志、衣服、产品上的野外文字），以及复杂字符组合的文字系统（中文、阿拉伯文、天城文）。准确率因语言和文字系统差异显著——拉丁字母OCR几乎已解决，但CJK和从右到左的文字系统仍有显著的错误率。