Mistral a publie OCR 4, un modele d'intelligence documentaire avec une nuance simple : au lieu de se contenter d'extraire le texte d'un fichier, il restitue la structure. OCR 4 renvoie des boites englobantes, une classification en blocs types qui etiquette les titres, les tableaux, les equations et les signatures, ainsi que des scores de confiance en ligne pour ce qu'il a lu. Le texte n'est qu'une partie de la sortie, et sans doute la moins interessante.
La structure et la confiance sont l'essentiel, car c'est precisement ce qui manquait aux systemes de recherche documentaire. L'OCR ordinaire vous donne un mur de caracteres mais perd la provenance de chaque element et son degre de fiabilite. Avec des boites englobantes, des types de blocs et une confiance par passage, un systeme en aval peut construire des citations ancrees dans la source qui pointent vers la zone exacte d'une page, masquer les blocs sensibles et acheminer les passages a faible confiance vers un humain pour revision. C'est la couche entre la numerisation d'un PDF et la confiance que l'on peut accorder a ce qui en sort.
Cote couverture et deploiement, OCR 4 prend en charge 170 langues reparties en 10 groupes linguistiques, avec des gains mesurables sur les langues specialisees et peu dotees ou de nombreux systemes concurrents se degradent. Il accepte les formats que les entreprises utilisent reellement, dont PDF, DOC, PPT et OpenDocument. Tout aussi important, le modele est assez compact pour tourner dans un seul conteneur, ce qui signifie qu'il peut etre auto-heberge, une consideration concrete pour les organisations dont les documents ne peuvent pas quitter leurs propres murs.
Mistral appuie son annonce par des chiffres. L'entreprise affirme que des annotateurs independants ont prefere OCR 4 a tous les systemes testes, avec un taux de victoire moyen de 72 %, et que le modele domine le classement public OlmOCRBench avec un score de 85.20. La prudence habituelle s'impose : le cadrage du taux de victoire vient de Mistral elle-meme, et les benchmarks d'OCR mesurent des tranches etroites d'un probleme desordonne. Le vrai test, ce sont les documents reels et difficiles, l'ecriture manuscrite, les mauvaises numerisations et les tableaux denses, ou les scores ont tendance a chuter.
Le changement qui merite l'attention, c'est ce que l'OCR est en train de devenir. Ce n'est plus une etape de vidage de texte en amont d'un pipeline, mais la couche d'ingestion pour la recherche documentaire, qui emet la structure et l'incertitude dont une IA ancree a vraiment besoin. A mesure qu'une part croissante des donnees utiles au sein des entreprises reside dans des PDF et des presentations, un modele documentaire qui restitue des citations et une confiance, et qui tourne dans votre propre conteneur, devient une piece discretement porteuse de la pile RAG. Moins tape-a-l'oeil qu'un nouveau robot conversationnel, et plus susceptible d'etre ce qui rend ce robot digne de confiance.
