El nuevo modelo OCR de Baidu lee un libro entero de una sola pasada sin que su memoria se dispare, Zubnet AI Noticias

Baidu ha liberado en codigo abierto Unlimited-OCR, un modelo de documentos de 3.000 millones de parametros cuya caracteristica estelar no es solo con cuanta precision lee sino como maneja la longitud. Puede tomar un PDF de 40 paginas, o en las demostraciones un libro entero, y analizarlo en una sola pasada hacia adelante mientras mantiene plana su huella de memoria. El modelo tiene licencia MIT y, con 3.000 millones de parametros y unos 500 millones activos en su diseno de mezcla de expertos, es lo bastante pequeno para ejecutarlo en tu propio hardware.

La razon por la que eso importa requiere un momento para desglosarse. En el tipo de modelo que lee documentos, la parte costosa de ir largo es el KV cache, la memoria en curso que el modelo conserva mientras avanza por una secuencia. Normalmente esa cache crece linealmente con la longitud, de modo que cuanto mas largo el documento, mas memoria y mas latencia cuesta, y los documentos muy largos o se trocean en pedazos o se vuelven poco practicos. Mantener esa cache plana es lo que permite que una sola pasada sobre un libro entero siga siendo barata.

El mecanismo de Baidu para eso es un esquema de atencion al que llama Reference Sliding Window Attention, o R-SWA, que comprime la cache de lineal a constante. La idea es una division: el modelo siempre puede ver la referencia completa, es decir los tokens visuales del documento y el prompt, pero del lado de la salida el decodificador solo retiene los 128 tokens generados mas recientes como su memoria de trabajo. Asi que sin importar cuantas paginas haya producido, la memoria que arrastra hacia adelante no crece. Esta construido sobre el DeepEncoder de DeepSeek-OCR, encadenando un SAM-ViT con un CLIP-ViT y aplicando una compresion de tokens de 16 veces, lo que convierte una pagina de 1024 por 1024 en apenas 256 tokens visuales antes de que el modelo siquiera empiece a leer.

Los numeros respaldan el diseno. En el benchmark OmniDocBench v1.6, Unlimited-OCR obtiene una puntuacion total del 93,92 por ciento, que Baidu reporta como un nuevo estado del arte. En su propio conjunto de pruebas de documentos largos, documentos de 20 paginas analizados de una sola pasada alcanzan una distancia de edicion de 0,0572, e incluso documentos de mas de 40 paginas siguen siendo utilizables en 0,1069. El grafico mas revelador es la latencia: mientras que el tiempo por llamada de DeepSeek-OCR sube a medida que decodifica, con picos en los limites de alineacion, el de Unlimited-OCR se mantiene como una linea plana sin importar la longitud de la secuencia. Segun Baidu, supera a DeepSeek-OCR de manera rotunda, lo cual es notable dado que esta construido sobre el propio codificador de DeepSeek-OCR.

La razon para que esto importe se remonta a donde viven realmente los documentos. La mayoria de los datos utiles dentro de las empresas reside en PDF largos, contratos, manuales y libros escaneados, y alimentar con ellos un sistema de recuperacion ha significado pagar un impuesto de memoria creciente o partirlos en fragmentos que pierden contexto. Un modelo que analiza un documento largo entero de una sola pasada, con memoria constante, y que puedes alojar tu mismo bajo una licencia MIT, apunta de lleno a ese problema de ingesta. Las advertencias honestas se mantienen: los benchmarks de OCR miden una porcion estrecha, la prueba dificil del mundo real son los escaneos desordenados, las tablas densas y la escritura a mano donde las puntuaciones caen, y apoyarse en el codificador de DeepSeek-OCR significa que las ganancias son un refinamiento de arquitectura mas que un diseno desde cero. Pero la cache constante para el analisis de documentos largos es el tipo correcto de idea, esa clase que silenciosamente abarata la ejecucion del resto del stack de IA documental.

El nuevo modelo OCR de Baidu lee un libro entero de una sola pasada sin que su memoria se dispare

Más noticias