Pipelines de OCR moderno têm dois estágios: detecção (encontrar regiões de texto usando modelos como CRAFT ou DBNet) e reconhecimento (ler texto em cada região usando CRNN ou modelos baseados em Transformer). Abordagens end-to-end (como PaddleOCR, EasyOCR) combinam ambos os estágios. Para documentos estruturados, modelos especializados (LayoutLM, Donut) entendem tanto o conteúdo do texto quanto o layout espacial, reconhecendo que "Total: R$ 42,50" em uma fatura significa algo diferente do mesmo texto em um parágrafo.
LLMs multimodais (Claude, GPT-4V, Gemini) se tornaram notavelmente bons em OCR como efeito colateral de suas capacidades de visão. Você pode fazer upload de uma imagem e perguntar "leia todo o texto nesta imagem" ou "extraia a tabela deste recibo." Para documentos complexos com layouts mistos, escrita à mão e múltiplos idiomas, vision LLMs frequentemente superam sistemas de OCR dedicados porque entendem contexto e lidam com ambiguidade. A contrapartida é velocidade e custo — OCR dedicado é 100x mais rápido para processamento em massa.
Problemas difíceis remanescentes: reconhecimento de escrita à mão (especialmente cursiva ou desorganizada), documentos históricos degradados, texto em fundos complexos (texto em placas, roupas, produtos) e scripts com composição complexa de caracteres (chinês, árabe, devanagari). A precisão varia significativamente por idioma e escrita — OCR de escrita latina está quase resolvido, mas scripts CJK e da direita para esquerda ainda têm taxas de erro significativas.