Mistral ने OCR 4 जारी किया है, एक दस्तावेज़ बुद्धिमत्ता मॉडल जिसमें एक सरल मोड़ है: किसी फ़ाइल से केवल टेक्स्ट निकालने के बजाय, यह संरचना लौटाता है। OCR 4 बाउंडिंग बॉक्स लौटाता है, टाइप किए गए ब्लॉक का वर्गीकरण जो शीर्षकों, तालिकाओं, समीकरणों और हस्ताक्षरों को लेबल करता है, और जो पढ़ा गया उसके लिए इनलाइन विश्वास स्कोर। टेक्स्ट आउटपुट का केवल एक हिस्सा है, और शायद सबसे कम दिलचस्प हिस्सा।

संरचना और विश्वास ही मुख्य बात हैं, क्योंकि यही वह चीज़ है जो रिट्रीवल प्रणालियों में अब तक नहीं थी। सादा OCR आपको अक्षरों की एक दीवार देता है पर यह खो देता है कि हर टुकड़ा कहाँ से आया और वह कितना भरोसेमंद है। बाउंडिंग बॉक्स, ब्लॉक प्रकार और प्रति अंश विश्वास के साथ, एक डाउनस्ट्रीम प्रणाली स्रोत आधारित उद्धरण बना सकती है जो किसी पृष्ठ के ठीक उस क्षेत्र की ओर इशारा करते हैं, संवेदनशील ब्लॉकों को छिपा सकती है, और कम विश्वास वाले अंशों को समीक्षा के लिए किसी मनुष्य तक भेज सकती है। यही वह परत है जो किसी PDF को स्कैन करने और उससे जो निकले उस पर भरोसा करने के बीच है।

कवरेज और परिनियोजन के मामले में, OCR 4 10 भाषा समूहों में 170 भाषाओं का समर्थन करता है, विशेष और कम संसाधन वाली भाषाओं पर मापने योग्य बढ़त के साथ जहाँ कई प्रतिस्पर्धी प्रणालियाँ कमज़ोर पड़ती हैं। यह उन प्रारूपों को स्वीकार करता है जो एंटरप्राइज़ वास्तव में उपयोग करते हैं, जिनमें PDF, DOC, PPT और OpenDocument शामिल हैं। उतना ही महत्वपूर्ण, यह मॉडल इतना सघन है कि एक ही कंटेनर में चल सके, जिसका अर्थ है कि इसे स्वयं होस्ट किया जा सकता है, उन संगठनों के लिए एक वास्तविक विचार जिनके दस्तावेज़ उनकी अपनी दीवारों से बाहर नहीं जा सकते।

Mistral इस रिलीज़ को आँकड़ों से समर्थन देता है। यह कहता है कि स्वतंत्र एनोटेटरों ने हर परखी गई प्रणाली पर OCR 4 को प्राथमिकता दी, औसतन 72 प्रतिशत जीत दर के साथ, और यह कि मॉडल सार्वजनिक OlmOCRBench लीडरबोर्ड पर 85.20 के स्कोर के साथ सबसे ऊपर है। सामान्य सावधानी लागू होती है: जीत दर का ढाँचा Mistral का अपना है, और OCR बेंचमार्क एक बिखरी हुई समस्या के संकीर्ण हिस्सों को मापते हैं। असली परीक्षा अटपटे वास्तविक दुनिया के दस्तावेज़ हैं, हस्तलेखन, खराब स्कैन, और घनी तालिकाएँ, जहाँ स्कोर अक्सर गिर जाते हैं।

गौर करने लायक बदलाव यह है कि OCR किस चीज़ में बदल रहा है। यह अब किसी पाइपलाइन के आगे एक टेक्स्ट उगलने वाला कदम नहीं रहा बल्कि रिट्रीवल के लिए ग्रहण परत बन गया है, जो वह संरचना और अनिश्चितता उत्सर्जित करती है जो आधारित AI को वास्तव में चाहिए। जैसे जैसे कंपनियों के भीतर का अधिकाधिक उपयोगी डेटा PDF और स्लाइड डेक में बैठता है, एक दस्तावेज़ मॉडल जो उद्धरण और विश्वास लौटाता है, और आपके अपने कंटेनर के भीतर चलता है, RAG स्टैक का एक चुपचाप भार उठाने वाला हिस्सा है। किसी और चैटबॉट से कम चमकदार, और इस बात की अधिक संभावना कि यही वह चीज़ हो जो चैटबॉट को भरोसेमंद बनाए।