एक 4M-पैरामीटर बाइट-लेवल एनकोडर क्रॉस-स्क्रिप्ट नाम-मिलान के उस अंतर को बंद करता है जो प्रतिबंध स्क्रीनिंग को तोड़ता है

Vedant Jumle की क्रॉस-स्क्रिप्ट नाम रिट्रीवल सिस्टम के बारे में लिखावट उस तरह की छोटी, केंद्रित शोध परियोजना है जो वास्तविक व्यावहारिक प्रभाव डालती है। समस्या साधारण और महत्वपूर्ण है: जब "Владимир Путин" साइरिलिक स्रोत में हो और वॉचलिस्ट लैटिन में अनुक्रमित हो, तो Levenshtein, Double Metaphone, और BM25 जैसे क्लासिकल फ़ज़ी मैचर बुरी तरह विफल हो जाते हैं। इन बेसलाइन्स पर लैटिन-से-लैटिन रिट्रीवल और लैटिन-से-गैर-लैटिन रिट्रीवल के बीच प्रदर्शन अंतर 0.88 से 0.94 तक चलता है — मतलब वो सिस्टम जो उसी स्क्रिप्ट के भीतर मैच चिह्नित करता है, स्क्रिप्ट्स के बीच समकक्ष नाम लगभग पूरी तरह miss करता है। प्रतिबंध स्क्रीनिंग, इमिग्रेशन डेटाबेस, अस्पताल रिकॉर्ड मैचिंग, और वित्तीय अनुपालन पाइपलाइन हर दिन इस विफलता मोड के साथ जीते हैं।

मॉडल छोटा है और आर्किटेक्चर पारंपरिक: 4 मिलियन पैरामीटर का एक ट्रांसफ़ॉर्मर एनकोडर जिसमें छह परतें और 256 छिपे आयाम हैं, InfoNCE कॉन्ट्रास्टिव लॉस और ANCE हार्ड नेगेटिव माइनिंग के साथ प्रशिक्षित। ट्रिक है इनपुट। सबवर्ड टोकनाइज़ेशन के बजाय, जो बहुत अलग सांख्यिकीय संरचनाओं वाली लेखन प्रणालियों के बीच नाज़ुक है, एनकोडर कच्चे UTF-8 बाइट्स पढ़ता है — एक 256-प्रतीक वर्णमाला जो हर स्क्रिप्ट को मूल रूप से संभालती है। कोई स्क्रिप्ट-विशिष्ट प्रीप्रोसेसिंग नहीं है और कोई अलग टोकनाइज़र नहीं जिसे आप हिब्रू या हिंदी जोड़ने पर फिर से प्रशिक्षित करना पड़े। एम्बेडिंग्स यूनिट-नॉर्मलाइज़्ड हैं इसलिए रिट्रीवल कोसाइन समानता है, जिसका मतलब है तैनाती बस पूर्व-गणना किए गए वैक्टर पर एक ANN इंडेक्स है। पूरा सिस्टम मेमोरी बजट में फ़िट होता है जिनमें क्लासिकल फोनेटिक मैचर भी फ़िट होते हैं।

प्रशिक्षण डेटा निर्माण ही है जो परिणाम को विश्वसनीय बनाता है। Jumle ने Wikidata से नमूने लिए 119,040 व्यक्ति इकाइयों से शुरुआत की, उन्हें चार-चरण सिंथेटिक जोड़ी पाइपलाइन के माध्यम से चलाया (Llama-3.1-8B से ध्वन्यात्मक लैटिन वेरिएंट्स, Qwen3-30B से आठ स्क्रिप्ट्स में क्रॉस-स्क्रिप्ट लिप्यंतरण), और 4.67 मिलियन सकारात्मक जोड़े पाने के लिए Wikidata के ग्राउंड-ट्रुथ नाम जोड़ों के साथ मिला दिया। हेडलाइन नंबर समग्र रूप से 0.775 MRR और 0.897 R@10 है, और महत्वपूर्ण रूप से लैटिन-से-गैर-लैटिन अंतर 0.096 तक गिर जाता है — क्लासिकल बेसलाइन्स से एक परिमाण क्रम बेहतर। अरबी, रूसी और हिब्रू सभी 0.95 R@10 पार करते हैं। चीनी (0.666) और कोरियाई (0.728) पीछे हैं, जिसे लिखावट सही ढंग से वास्तविक रोमनकरण अस्पष्टता को बताती है, मॉडल विफलता को नहीं: किसी भी दिए गए हांज़ी या हंगुल नाम के कई बचाव योग्य रोमनकरण हैं, और ग्राउंड ट्रुथ कम है।

Jumle जो ईमानदार सीमा झंडित करता है वो ये है कि प्रशिक्षण डेटा का 99.5% LLM द्वारा उत्पन्न और लैटिन से बाहर लिप्यंतरण करके संश्लेषित है, जंगली में मूल-स्क्रिप्ट वर्तनी विविधता एकत्र करके नहीं। उत्पादन में यह मायने रखता है: एक वास्तविक प्रतिबंध स्क्रीन को सामान्य वर्तनी की ग़लतियों, बोली प्रकार और ऐतिहासिक रोमनकरण सम्मेलनों का मिलान करना होता है जिन्हें सिंथेटिक पाइपलाइन ने कभी नहीं देखा। बेंचमार्क संख्याएँ असली हैं पर मूल्यांकन वितरण उसी सिंथेटिक जनरेटर के नीचे है, जिसका मतलब है कि बेंचमार्क और उत्पादन के बीच का अंतर हेडलाइन के सुझाव से संभावित रूप से बड़ा है। डेवलपर्स के लिए, निष्कर्ष दोहरा है: बाइट-स्तर एनकोडर्स प्लस कॉन्ट्रास्टिव लर्निंग ऐसी समस्याओं को तोड़ सकते हैं जिन्हें क्लासिकल फोनेटिक मैचिंग नहीं तोड़ सकती, आर्किटेक्चर कहीं भी चलने के लिए काफ़ी छोटा है, और सिंथेटिक डेटा शॉर्टकट सही तरीक़ा है bootstrap करने का जब आपके पास बहुभाषी जोड़ी डेटा नहीं है — पर उत्पादन तैनाती को अभी भी आपके वास्तविक डेटा वितरण से लिए गए असली मूल्यांकन सेट की चाहत है, उस जनरेटर की नहीं जिसने मॉडल को प्रशिक्षित किया। रेपो github.com/vedant-jumle/cross-language-phonetic-text-alignment पर है जो भी अपने ख़ुद के जोड़ी डेटा पर fine-tune करना चाहे।

और समाचार