Mistral ha lanzado OCR 4, un modelo de inteligencia documental con un giro sencillo: en lugar de solo extraer el texto de un archivo, devuelve la estructura. OCR 4 entrega cuadros delimitadores, clasificacion de bloques tipificados que etiqueta titulos, tablas, ecuaciones y firmas, y puntuaciones de confianza en linea sobre lo que leyo. El texto es solo una parte de la salida, y posiblemente la parte menos interesante.
La estructura y la confianza son el punto clave, porque son lo que les ha faltado a los sistemas de recuperacion. El OCR plano te da un muro de caracteres pero pierde de donde vino cada pieza y cuan fiable es. Con cuadros delimitadores, tipos de bloque y confianza por pasaje, un sistema posterior puede construir citas ancladas a la fuente que apuntan a la region exacta de una pagina, ocultar bloques sensibles y enviar los pasajes de baja confianza a una persona para su revision. Esa es la capa entre escanear un PDF y confiar en lo que sale de el.
En cuanto a cobertura y despliegue, OCR 4 admite 170 idiomas en 10 grupos linguisticos, con mejoras medibles en idiomas especializados y de pocos recursos donde muchos sistemas rivales se degradan. Acepta los formatos que las empresas usan de verdad, incluidos PDF, DOC, PPT y OpenDocument. Igual de importante, el modelo es lo bastante compacto para ejecutarse en un solo contenedor, lo que significa que puede alojarse por cuenta propia, una consideracion real para las organizaciones cuyos documentos no pueden salir de sus propios muros.
Mistral respalda el lanzamiento con cifras. Afirma que anotadores independientes prefirieron OCR 4 frente a todos los sistemas probados, con una tasa de victoria promedio del 72 %, y que el modelo encabeza la clasificacion publica de OlmOCRBench con una puntuacion de 85.20. Aplica la precaucion habitual: el encuadre de la tasa de victoria es del propio Mistral, y los bancos de pruebas de OCR miden franjas estrechas de un problema desordenado. La prueba real son los documentos incomodos del mundo real, escritura a mano, escaneos pobres y tablas densas, donde las puntuaciones tienden a caer.
El cambio que vale la pena notar es en que se esta convirtiendo el OCR. Ya no es un paso de volcado de texto al inicio de una canalizacion, sino la capa de ingesta para la recuperacion, que emite la estructura y la incertidumbre que la IA anclada realmente necesita. A medida que mas datos utiles dentro de las empresas residen en PDF y presentaciones, un modelo documental que devuelve citas y confianza, y se ejecuta dentro de tu propio contenedor, es una pieza discretamente portante de la pila de RAG. Menos llamativo que otro chatbot, y mas probable que sea lo que hace que el chatbot sea digno de confianza.
