OCR: परिभाषा और अर्थ — AI विकी

छवियों से टेक्स्ट निकालना — दस्तावेज़ों की तस्वीरें, screenshots, संकेत, हस्तलिखित नोट्स, या टेक्स्ट वाली कोई भी छवि। आधुनिक OCR text detection (छवि में टेक्स्ट कहाँ दिखाई देता है यह खोजना) को text recognition (टेक्स्ट क्या कहता है यह पढ़ना) के साथ जोड़ता है। Deep learning OCR घुमावदार टेक्स्ट, कई भाषाओं, विविध fonts और खराब image गुणवत्ता को पुराने नियम-आधारित दृष्टिकोणों से कहीं बेहतर संभालता है।

यह क्यों मायने रखता है

OCR भौतिक दुनिया को डिजिटल बनाता है। खर्च tracking के लिए रसीदों को स्कैन करना, archival के लिए दस्तावेज़ पढ़ना, forms से डेटा निकालना, रीयल-टाइम में संकेतों का अनुवाद करना, और image-आधारित PDFs को खोजने योग्य बनाना सभी OCR पर निर्भर करते हैं। LLMs के साथ मिलकर, OCR परिष्कृत document understanding को सक्षम बनाता है — केवल टेक्स्ट पढ़ना नहीं बल्कि invoices, contracts और reports को समझना।

गहन अध्ययन

आधुनिक OCR pipelines में दो चरण होते हैं: detection (CRAFT या DBNet जैसे मॉडलों का उपयोग करके text क्षेत्रों को खोजना) और recognition (CRNN या Transformer-आधारित मॉडलों का उपयोग करके प्रत्येक क्षेत्र में text पढ़ना)। End-to-end दृष्टिकोण (जैसे PaddleOCR, EasyOCR) दोनों चरणों को जोड़ते हैं। संरचित दस्तावेज़ों के लिए, विशेष मॉडल (LayoutLM, Donut) text सामग्री और spatial layout दोनों को समझते हैं, यह पहचानते हुए कि एक invoice पर "Total: $42.50" का अर्थ एक paragraph में उसी text से अलग है।

OCR के रूप में Vision LLMs

Multimodal LLMs (Claude, GPT-4V, Gemini) अपनी vision क्षमताओं के side effect के रूप में OCR में उल्लेखनीय रूप से अच्छे हो गए हैं। आप एक छवि अपलोड कर सकते हैं और पूछ सकते हैं "इस छवि में सभी text पढ़ें" या "इस रसीद से table निकालें।" मिश्रित layouts, handwriting और कई भाषाओं वाले जटिल दस्तावेज़ों के लिए, vision LLMs अक्सर समर्पित OCR सिस्टम से बेहतर प्रदर्शन करते हैं क्योंकि वे संदर्भ समझते हैं और अस्पष्टता को संभाल सकते हैं। ट्रेड-ऑफ गति और लागत है — समर्पित OCR bulk processing के लिए 100x तेज है।

चुनौतियाँ

शेष कठिन समस्याएँ: handwriting recognition (विशेष रूप से cursive या गंदी handwriting), क्षतिग्रस्त ऐतिहासिक दस्तावेज़, जटिल पृष्ठभूमि में text (संकेतों, कपड़ों, उत्पादों पर wild text), और जटिल character compositions वाली scripts (चीनी, अरबी, देवनागरी)। सटीकता भाषा और script के अनुसार महत्वपूर्ण रूप से भिन्न होती है — Latin script OCR लगभग हल हो चुका है, लेकिन CJK और right-to-left scripts में अभी भी सार्थक error rates हैं।

OCR

यह क्यों मायने रखता है

गहन अध्ययन

OCR के रूप में Vision LLMs

चुनौतियाँ

संबंधित अवधारणाएँ