Novo modelo de OCR da Baidu le um livro inteiro de uma vez sem estourar a memoria, Zubnet AI Notícias

A Baidu liberou em codigo aberto o Unlimited-OCR, um modelo de documentos de 3 bilhoes de parametros cujo destaque nao esta apenas em quao bem ele le, mas em como lida com o tamanho. Ele consegue pegar um PDF de 40 paginas, ou nas demonstracoes um livro inteiro, e processa-lo em uma unica passagem para frente, mantendo seu consumo de memoria constante. O modelo tem licenca MIT e, com 3 bilhoes de parametros e cerca de 500 milhoes ativos em seu design de mistura de especialistas, e pequeno o suficiente para rodar no seu proprio hardware.

O motivo pelo qual isso importa leva um instante para ser desvendado. No tipo de modelo que le documentos, a parte cara de ir longe e o KV cache, a memoria corrente que o modelo mantem enquanto avanca por uma sequencia. Normalmente esse cache cresce linearmente com o tamanho, entao quanto mais longo o documento, mais memoria e mais latencia ele custa, e documentos muito longos ou sao fatiados em pedacos ou se tornam inviaveis. Manter esse cache constante e o que permite que uma unica passagem por um livro inteiro continue barata.

O mecanismo da Baidu para isso e um esquema de atencao que ela chama de Reference Sliding Window Attention, ou R-SWA, que comprime o cache de linear para constante. A ideia e uma divisao: o modelo sempre pode enxergar a referencia completa, ou seja, os tokens visuais do documento e o prompt, mas no lado da saida o decodificador so retem os 128 tokens gerados mais recentes como sua memoria de trabalho. Assim, nao importa quantas paginas ele tenha produzido, a memoria que carrega adiante nao cresce. Ele e construido sobre o DeepEncoder do DeepSeek-OCR, encadeando um SAM-ViT com um CLIP-ViT e aplicando 16 vezes de compressao de tokens, o que transforma uma pagina de 1024 por 1024 em apenas 256 tokens visuais antes mesmo de o modelo comecar a ler.

Os numeros sustentam o design. No benchmark OmniDocBench v1.6, o Unlimited-OCR registra uma pontuacao total de 93,92 por cento, que a Baidu reporta como um novo estado da arte. Em seu proprio conjunto de teste de documentos longos, documentos de 20 paginas processados em uma unica passagem alcancam uma distancia de edicao de 0,0572, e mesmo documentos de mais de 40 paginas permanecem utilizaveis em 0,1069. O grafico mais revelador e o de latencia: enquanto o tempo por chamada do DeepSeek-OCR sobe conforme ele decodifica, com picos nas fronteiras de alinhamento, o do Unlimited-OCR permanece uma linha reta independentemente do tamanho da sequencia. Pelo relato da Baidu, ele supera o DeepSeek-OCR de forma direta, o que e notavel dado que e construido sobre o proprio codificador do DeepSeek-OCR.

O motivo para se importar remonta a onde os documentos de fato vivem. A maior parte dos dados uteis dentro das empresas esta em PDFs longos, contratos, manuais e livros digitalizados, e alimentar um sistema de recuperacao com eles significava pagar um imposto crescente de memoria ou quebra-los em fragmentos que perdem contexto. Um modelo que processa um documento longo inteiro em uma unica passagem, com memoria constante, e que voce pode hospedar por conta propria sob uma licenca MIT, mira diretamente nesse problema de ingestao. As ressalvas honestas se mantem: os benchmarks de OCR medem uma fatia estreita, o teste dificil do mundo real sao digitalizacoes baguncadas, tabelas densas e escrita a mao, onde as notas caem, e apoiar-se no codificador do DeepSeek-OCR significa que os ganhos sao um refinamento de arquitetura, e nao um projeto do zero. Mas cache constante para o processamento de documentos longos e o tipo certo de ideia, daquelas que silenciosamente tornam o resto da pilha de IA de documentos mais barato de operar.

Novo modelo de OCR da Baidu le um livro inteiro de uma vez sem estourar a memoria

Mais notícias