Les pipelines OCR modernes ont deux étapes : la détection (trouver les régions de texte en utilisant des modèles comme CRAFT ou DBNet) et la reconnaissance (lire le texte dans chaque région en utilisant CRNN ou des modèles basés sur les Transformers). Les approches de bout en bout (comme PaddleOCR, EasyOCR) combinent les deux étapes. Pour les documents structurés, des modèles spécialisés (LayoutLM, Donut) comprennent à la fois le contenu textuel et la mise en page spatiale, reconnaissant que « Total : 42,50 $ » sur une facture signifie quelque chose de différent du même texte dans un paragraphe.
Les LLM multimodaux (Claude, GPT-4V, Gemini) sont devenus remarquablement bons en OCR comme effet secondaire de leurs capacités visuelles. Tu peux télécharger une image et demander « lis tout le texte de cette image » ou « extrais le tableau de ce reçu ». Pour les documents complexes avec des mises en page mixtes, de l'écriture manuscrite et des langues multiples, les LLM de vision surpassent souvent les systèmes OCR dédiés parce qu'ils comprennent le contexte et peuvent gérer l'ambiguïté. Le compromis est la vitesse et le coût — l'OCR dédié est 100 fois plus rapide pour le traitement en masse.
Problèmes difficiles restants : la reconnaissance d'écriture manuscrite (surtout la cursive ou l'écriture brouillonne), les documents historiques dégradés, le texte dans des fonds complexes (texte sauvage sur les panneaux, vêtements, produits), et les systèmes d'écriture à composition de caractères complexe (chinois, arabe, devanagari). La précision varie significativement selon la langue et le système d'écriture — l'OCR en alphabet latin est pratiquement résolu, mais les écritures CJK et de droite à gauche ont encore des taux d'erreur significatifs.