Los pipelines de OCR modernos tienen dos etapas: detección (encontrar regiones de texto usando modelos como CRAFT o DBNet) y reconocimiento (leer texto en cada región usando CRNN o modelos basados en Transformer). Los enfoques end-to-end (como PaddleOCR, EasyOCR) combinan ambas etapas. Para documentos estructurados, modelos especializados (LayoutLM, Donut) entienden tanto el contenido de texto como el layout espacial, reconociendo que "Total: $42.50" en una factura significa algo diferente del mismo texto en un párrafo.
Los LLMs multimodales (Claude, GPT-4V, Gemini) se han vuelto notablemente buenos en OCR como efecto secundario de sus capacidades de visión. Puedes subir una imagen y preguntar "lee todo el texto en esta imagen" o "extrae la tabla de este recibo." Para documentos complejos con layouts mixtos, escritura a mano y múltiples idiomas, los vision LLMs a menudo superan a los sistemas OCR dedicados porque entienden contexto y pueden manejar ambigüedad. La desventaja es velocidad y costo — el OCR dedicado es 100x más rápido para procesamiento masivo.
Problemas difíciles restantes: reconocimiento de escritura a mano (especialmente cursiva o letra desordenada), documentos históricos degradados, texto en fondos complejos (texto en la calle en letreros, ropa, productos) y escrituras con composición de caracteres compleja (chino, árabe, devanagari). La precisión varía significativamente por idioma y escritura — el OCR para escritura latina está casi resuelto, pero las escrituras CJK y de derecha a izquierda aún tienen tasas de error significativas.