OCR: Definição e significado — Wiki de IA

Extrair texto de imagens — fotografias de documentos, capturas de tela, placas, notas escritas à mão ou qualquer imagem contendo texto. OCR moderno combina detecção de texto (encontrar onde o texto aparece na imagem) com reconhecimento de texto (ler o que o texto diz). OCR com deep learning lida com texto curvo, múltiplos idiomas, fontes variadas e qualidade de imagem ruim muito melhor do que abordagens mais antigas baseadas em regras.

Por que isso importa

OCR digitaliza o mundo físico. Escanear recibos para controle de despesas, ler documentos para arquivo, extrair dados de formulários, traduzir placas em tempo real e tornar PDFs baseados em imagem pesquisáveis — tudo depende de OCR. Combinado com LLMs, OCR possibilita compreensão sofisticada de documentos — não apenas ler texto, mas entender faturas, contratos e relatórios.

Em profundidade

Pipelines de OCR moderno têm dois estágios: detecção (encontrar regiões de texto usando modelos como CRAFT ou DBNet) e reconhecimento (ler texto em cada região usando CRNN ou modelos baseados em Transformer). Abordagens end-to-end (como PaddleOCR, EasyOCR) combinam ambos os estágios. Para documentos estruturados, modelos especializados (LayoutLM, Donut) entendem tanto o conteúdo do texto quanto o layout espacial, reconhecendo que "Total: R$ 42,50" em uma fatura significa algo diferente do mesmo texto em um parágrafo.

Vision LLMs como OCR

LLMs multimodais (Claude, GPT-4V, Gemini) se tornaram notavelmente bons em OCR como efeito colateral de suas capacidades de visão. Você pode fazer upload de uma imagem e perguntar "leia todo o texto nesta imagem" ou "extraia a tabela deste recibo." Para documentos complexos com layouts mistos, escrita à mão e múltiplos idiomas, vision LLMs frequentemente superam sistemas de OCR dedicados porque entendem contexto e lidam com ambiguidade. A contrapartida é velocidade e custo — OCR dedicado é 100x mais rápido para processamento em massa.

Desafios

Problemas difíceis remanescentes: reconhecimento de escrita à mão (especialmente cursiva ou desorganizada), documentos históricos degradados, texto em fundos complexos (texto em placas, roupas, produtos) e scripts com composição complexa de caracteres (chinês, árabe, devanagari). A precisão varia significativamente por idioma e escrita — OCR de escrita latina está quase resolvido, mas scripts CJK e da direita para esquerda ainda têm taxas de erro significativas.