OCR: Definición y significado — Wiki de IA

Extraer texto de imágenes — fotografías de documentos, capturas de pantalla, letreros, notas manuscritas o cualquier imagen que contenga texto. El OCR moderno combina detección de texto (encontrar dónde aparece el texto en la imagen) con reconocimiento de texto (leer lo que dice el texto). El OCR con deep learning maneja texto curvo, múltiples idiomas, fuentes variadas y baja calidad de imagen mucho mejor que los enfoques antiguos basados en reglas.

Por qué importa

OCR digitaliza el mundo físico. Escanear recibos para seguimiento de gastos, leer documentos para archivo, extraer datos de formularios, traducir letreros en tiempo real y hacer PDFs basados en imagen buscables dependen del OCR. Combinado con LLMs, OCR permite comprensión sofisticada de documentos — no solo leer texto sino entender facturas, contratos e informes.

En profundidad

Los pipelines de OCR modernos tienen dos etapas: detección (encontrar regiones de texto usando modelos como CRAFT o DBNet) y reconocimiento (leer texto en cada región usando CRNN o modelos basados en Transformer). Los enfoques end-to-end (como PaddleOCR, EasyOCR) combinan ambas etapas. Para documentos estructurados, modelos especializados (LayoutLM, Donut) entienden tanto el contenido de texto como el layout espacial, reconociendo que "Total: $42.50" en una factura significa algo diferente del mismo texto en un párrafo.

Vision LLMs como OCR

Los LLMs multimodales (Claude, GPT-4V, Gemini) se han vuelto notablemente buenos en OCR como efecto secundario de sus capacidades de visión. Puedes subir una imagen y preguntar "lee todo el texto en esta imagen" o "extrae la tabla de este recibo." Para documentos complejos con layouts mixtos, escritura a mano y múltiples idiomas, los vision LLMs a menudo superan a los sistemas OCR dedicados porque entienden contexto y pueden manejar ambigüedad. La desventaja es velocidad y costo — el OCR dedicado es 100x más rápido para procesamiento masivo.

Desafíos

Problemas difíciles restantes: reconocimiento de escritura a mano (especialmente cursiva o letra desordenada), documentos históricos degradados, texto en fondos complejos (texto en la calle en letreros, ropa, productos) y escrituras con composición de caracteres compleja (chino, árabe, devanagari). La precisión varía significativamente por idioma y escritura — el OCR para escritura latina está casi resuelto, pero las escrituras CJK y de derecha a izquierda aún tienen tasas de error significativas.