Baidu a publie en open source Unlimited-OCR, un modele documentaire de 3 milliards de parametres dont la caracteristique phare n'est pas seulement la precision de lecture, mais sa facon de gerer la longueur. Il peut prendre un PDF de 40 pages, ou dans les demonstrations un livre entier, et l'analyser en une seule passe avant tout en maintenant son empreinte memoire constante. Le modele est sous licence MIT et, avec 3 milliards de parametres dont environ 500 millions actifs dans sa conception de melange d'experts, assez compact pour tourner sur votre propre materiel.
La raison pour laquelle cela compte demande un instant d'explication. Dans le genre de modele qui lit des documents, la partie couteuse de l'allongement est le KV cache, la memoire courante que le modele conserve a mesure qu'il parcourt une sequence. Normalement, ce cache croit lineairement avec la longueur, donc plus le document est long, plus il coute en memoire et en latence, et les documents tres longs sont soit decoupes en morceaux, soit deviennent impraticables. Maintenir ce cache constant est ce qui permet a une seule passe sur un livre entier de rester peu couteuse.
Le mecanisme de Baidu pour cela est un schema d'attention qu'il appelle Reference Sliding Window Attention, ou R-SWA, qui compresse le cache de lineaire a constant. L'idee est une separation: le modele peut toujours voir la reference complete, c'est-a-dire les tokens visuels du document et le prompt, mais du cote de la sortie, le decodeur ne retient que les 128 derniers tokens generes comme memoire de travail. Ainsi, quel que soit le nombre de pages produites, la memoire qu'il transporte ne croit pas. Il est construit sur le DeepEncoder de DeepSeek-OCR, mettant en cascade un SAM-ViT avec un CLIP-ViT et appliquant une compression de tokens de 16 fois, ce qui transforme une page de 1024 par 1024 en seulement 256 tokens visuels avant meme que le modele ne commence a lire.
Les chiffres confirment la conception. Sur le benchmark OmniDocBench v1.6, Unlimited-OCR affiche un score total de 93,92 pour cent, que Baidu presente comme un nouveau record. Sur son propre jeu de test de longs documents, des documents de 20 pages analyses en une passe atteignent une distance d'edition de 0,0572, et meme les documents de plus de 40 pages restent exploitables a 0,1069. Le graphique le plus revelateur est la latence: la ou le temps par appel de DeepSeek-OCR grimpe a mesure qu'il decode, avec des pics aux frontieres d'alignement, celle d'Unlimited-OCR reste une ligne plate quelle que soit la longueur de la sequence. Selon Baidu, il bat carrement DeepSeek-OCR, ce qui est notable etant donne qu'il est construit sur l'encodeur meme de DeepSeek-OCR.
La raison de s'y interesser renvoie a l'endroit ou vivent reellement les documents. La plupart des donnees utiles au sein des entreprises se trouvent dans de longs PDF, contrats, manuels et livres numerises, et les introduire dans un systeme de recuperation a signifie payer une taxe memoire croissante ou les fragmenter en morceaux qui perdent leur contexte. Un modele qui analyse un long document entier en une seule passe, a memoire constante, et que vous pouvez heberger vous-meme sous une licence MIT, vise droit ce probleme d'ingestion. Les reserves honnetes tiennent: les benchmarks OCR mesurent une tranche etroite, le vrai test du monde reel ce sont les scans en desordre, les tableaux denses et l'ecriture manuscrite ou les scores chutent, et s'appuyer sur l'encodeur de DeepSeek-OCR signifie que les gains relevent d'un raffinement architectural plutot que d'une conception partie de zero. Mais un cache constant pour l'analyse de longs documents est le bon genre d'idee, celui qui rend discretement le reste de la pile d'IA documentaire moins couteux a faire tourner.
