OCR : Définition et signification — Wiki IA

Extraire du texte à partir d'images — photographies de documents, captures d'écran, panneaux, notes manuscrites, ou toute image contenant du texte. L'OCR moderne combine la détection de texte (trouver où le texte apparaît dans l'image) avec la reconnaissance de texte (lire ce que dit le texte). L'OCR par deep learning gère le texte courbé, les langues multiples, les polices variées et la mauvaise qualité d'image bien mieux que les anciennes approches à base de règles.

Pourquoi c'est important

L'OCR numérise le monde physique. Scanner les reçus pour le suivi des dépenses, lire des documents pour l'archivage, extraire des données de formulaires, traduire des panneaux en temps réel, et rendre les PDF basés sur des images consultables dépendent tous de l'OCR. Combiné avec les LLM, l'OCR permet la compréhension sophistiquée de documents — pas juste lire du texte mais comprendre les factures, contrats et rapports.

En profondeur

Les pipelines OCR modernes ont deux étapes : la détection (trouver les régions de texte en utilisant des modèles comme CRAFT ou DBNet) et la reconnaissance (lire le texte dans chaque région en utilisant CRNN ou des modèles basés sur les Transformers). Les approches de bout en bout (comme PaddleOCR, EasyOCR) combinent les deux étapes. Pour les documents structurés, des modèles spécialisés (LayoutLM, Donut) comprennent à la fois le contenu textuel et la mise en page spatiale, reconnaissant que « Total : 42,50 $ » sur une facture signifie quelque chose de différent du même texte dans un paragraphe.

Les LLM de vision comme OCR

Les LLM multimodaux (Claude, GPT-4V, Gemini) sont devenus remarquablement bons en OCR comme effet secondaire de leurs capacités visuelles. Tu peux télécharger une image et demander « lis tout le texte de cette image » ou « extrais le tableau de ce reçu ». Pour les documents complexes avec des mises en page mixtes, de l'écriture manuscrite et des langues multiples, les LLM de vision surpassent souvent les systèmes OCR dédiés parce qu'ils comprennent le contexte et peuvent gérer l'ambiguïté. Le compromis est la vitesse et le coût — l'OCR dédié est 100 fois plus rapide pour le traitement en masse.

Défis

Problèmes difficiles restants : la reconnaissance d'écriture manuscrite (surtout la cursive ou l'écriture brouillonne), les documents historiques dégradés, le texte dans des fonds complexes (texte sauvage sur les panneaux, vêtements, produits), et les systèmes d'écriture à composition de caractères complexe (chinois, arabe, devanagari). La précision varie significativement selon la langue et le système d'écriture — l'OCR en alphabet latin est pratiquement résolu, mais les écritures CJK et de droite à gauche ont encore des taux d'erreur significatifs.