Baidu का नया OCR मॉडल पूरी किताब एक ही बार में पढ़ लेता है, बिना अपनी मेमोरी फुलाए, Zubnet AI समाचार

Baidu ने Unlimited-OCR को ओपन-सोर्स किया है, जो 3 अरब पैरामीटर वाला एक दस्तावेज़ मॉडल है जिसकी मुख्य विशेषता केवल यह नहीं है कि वह कितनी सटीकता से पढ़ता है, बल्कि यह कि वह लंबाई को कैसे संभालता है। यह 40 पन्नों की एक PDF, या डेमो में एक पूरी किताब, को ले सकता है और उसे एक ही फॉरवर्ड पास में पार्स कर सकता है, अपने मेमोरी फुटप्रिंट को सपाट बनाए रखते हुए। मॉडल MIT लाइसेंस वाला है और, 3 अरब पैरामीटर के साथ जिसमें इसके मिक्सचर ऑफ एक्सपर्ट्स डिज़ाइन में लगभग 50 करोड़ सक्रिय रहते हैं, इतना छोटा कि आपके अपने हार्डवेयर पर चल सके।

यह बात क्यों मायने रखती है, इसे समझने में एक पल लगता है। दस्तावेज़ पढ़ने वाले इस तरह के मॉडल में, लंबा जाने का महंगा हिस्सा KV cache होता है, यानी वह चलती-फिरती मेमोरी जिसे मॉडल किसी अनुक्रम को संसाधित करते हुए बनाए रखता है। आमतौर पर वह cache लंबाई के साथ रैखिक रूप से बढ़ता है, इसलिए दस्तावेज़ जितना लंबा होता है, उतनी ही ज़्यादा मेमोरी और उतनी ही ज़्यादा लेटेंसी की कीमत चुकानी पड़ती है, और बहुत लंबे दस्तावेज़ या तो टुकड़ों में काट दिए जाते हैं या अव्यावहारिक हो जाते हैं। उस cache को सपाट बनाए रखना ही वह बात है जो एक पूरी किताब पर एक ही पास को सस्ता बनाए रखती है।

इसके लिए Baidu की युक्ति एक अटेंशन योजना है जिसे वह Reference Sliding Window Attention, या R-SWA कहता है, जो cache को रैखिक से नियत में संपीड़ित कर देती है। विचार एक बँटवारे का है: मॉडल हमेशा पूरा संदर्भ देख सकता है, यानी दस्तावेज़ के दृश्य टोकन और प्रॉम्प्ट, लेकिन आउटपुट की ओर डिकोडर केवल सबसे हालिया 128 जेनरेट किए गए टोकन को ही अपनी कार्यशील मेमोरी के रूप में रखता है। तो उसने चाहे कितने भी पन्ने तैयार कर लिए हों, जो मेमोरी वह आगे ले जाता है वह नहीं बढ़ती। यह DeepSeek-OCR के DeepEncoder पर बना है, जो एक SAM-ViT को एक CLIP-ViT के साथ कैस्केड करता है और 16 गुना टोकन संपीड़न लागू करता है, जो एक 1024 गुणा 1024 पन्ने को मॉडल के पढ़ना शुरू करने से पहले ही केवल 256 दृश्य टोकन में बदल देता है।

आंकड़े इस डिज़ाइन का समर्थन करते हैं। OmniDocBench v1.6 बेंचमार्क पर, Unlimited-OCR 93.92 प्रतिशत का कुल स्कोर दर्ज करता है, जिसे Baidu एक नया अत्याधुनिक स्तर बताता है। अपने खुद के लंबे दस्तावेज़ टेस्ट सेट पर, एक ही पास में पार्स किए गए 20 पन्नों के दस्तावेज़ 0.0572 के एडिट डिस्टेंस पर पहुँचते हैं, और 40 से अधिक पन्नों के दस्तावेज़ भी 0.1069 पर उपयोग योग्य बने रहते हैं। ज़्यादा बताने वाला चार्ट लेटेंसी का है: जहाँ DeepSeek-OCR का प्रति कॉल समय डिकोड करते-करते चढ़ता जाता है, संरेखण सीमाओं पर उछाल के साथ, वहीं Unlimited-OCR का अनुक्रम की लंबाई चाहे जो हो एक सपाट रेखा बना रहता है। Baidu के अनुसार यह DeepSeek-OCR को सीधे तौर पर मात देता है, जो उल्लेखनीय है क्योंकि यह खुद DeepSeek-OCR के एनकोडर पर ही बना है।

इसकी परवाह करने की वजह वापस वहाँ जाती है जहाँ दस्तावेज़ असल में रहते हैं। कंपनियों के भीतर ज़्यादातर उपयोगी डेटा लंबी PDF, अनुबंधों, मैनुअल और स्कैन की हुई किताबों में बैठा होता है, और उन्हें किसी रिट्रीवल सिस्टम में डालने का मतलब रहा है या तो बढ़ती हुई मेमोरी की कीमत चुकाना या उन्हें ऐसे टुकड़ों में तोड़ना जो संदर्भ खो देते हैं। एक ऐसा मॉडल जो पूरे लंबे दस्तावेज़ को एक ही पास में, नियत मेमोरी पर पार्स करता है, और जिसे आप MIT लाइसेंस के तहत खुद होस्ट कर सकते हैं, ठीक उसी इन्जेशन समस्या को निशाना बनाता है। ईमानदार चेतावनियाँ कायम रहती हैं: OCR बेंचमार्क एक संकीर्ण हिस्से को मापते हैं, असली कठिन परीक्षा गंदे स्कैन, घनी तालिकाएँ और हस्तलेख हैं जहाँ स्कोर गिर जाते हैं, और DeepSeek-OCR के एनकोडर पर टिके रहने का मतलब है कि ये बढ़त एक आर्किटेक्चर परिष्करण है, न कि कोरे काग़ज़ से बना डिज़ाइन। लेकिन लंबे दस्तावेज़ की पार्सिंग के लिए नियत cache सही किस्म का विचार है, वह किस्म जो चुपचाप बाकी दस्तावेज़ AI स्टैक को चलाने में सस्ता बना देती है।

Baidu का नया OCR मॉडल पूरी किताब एक ही बार में पढ़ लेता है, बिना अपनी मेमोरी फुलाए

और समाचार