Talkie-1930 ने 1931-पूर्व अंग्रेजी पर प्रशिक्षित 13B LLM जारी किया, यह जांचने के लिए कि वेब-युग के मॉडल याद करते हैं या वास्तव में सीखते हैं

Nick Levine, David Duvenaud (Toronto) और Alec Radford (पहले OpenAI के GPT वंशावली के वास्तुकार) के नेतृत्व में एक छोटी गैर-लाभ टीम ने आज Talkie-1930 जारी किया, एक 13B पैरामीटर ओपन-वेट भाषा मॉडल जो सख्ती से 1931-पूर्व अंग्रेजी पाठ के 260 अरब टोकन पर शून्य से प्रशिक्षित है। कॉर्पस पुस्तकें, समाचार पत्र, पत्रिकाएं, वैज्ञानिक पत्रिकाएं, पेटेंट और केस लॉ है, सभी सार्वजनिक डोमेन स्रोतों से, जिसके लिए पर्याप्त OCR ट्रांसक्रिप्शन कार्य की आवश्यकता थी क्योंकि टीम ने पाया कि ऑफ-द-शेल्फ OCR आउटपुट मानव-ट्रांसक्राइब्ड पाठ की केवल 30% सीखने की दक्षता उत्पन्न करता था। HuggingFace पर Apache 2.0 के तहत दो चेकपॉइंट सार्वजनिक हैं: talkie-1930-13b-base कच्चे पूर्णताओं के लिए और talkie-1930-13b-it Claude Sonnet 4.6 को न्यायाधीश के रूप में उपयोग करते हुए प्रत्यक्ष वरीयता अनुकूलन के माध्यम से निर्देश-ट्यून किया गया। मॉडल को स्थानीय अनुमान के लिए कम से कम 28 GB GPU की आवश्यकता है। काम में प्रतिस्पर्धी सीमावर्ती मॉडल के बजाय एक शोध कलाकृति की संरचना है, लेकिन शोध लक्ष्य असामान्य रूप से ठोस है: एक बेस मॉडल का उत्पादन करना जिसका ज्ञान कटऑफ 31 दिसंबर 1930 है, जिसके खिलाफ टीम ने समकालीन वेब डेटा पर समान 13B आर्किटेक्चर का «आधुनिक जुड़वां» भी प्रशिक्षित किया, ताकि वर्तमान भाषा मॉडल वास्तव में क्या सीखते हैं बनाम याद करते हैं इस पर नियंत्रित प्रयोग किए जा सकें।

तकनीकी रूप से दिलचस्प हिस्से डेटा इंजीनियरिंग और संदूषण-नियंत्रण तर्क हैं, दोनों बिल्डरों के लिए उपयोगी हैं भले ही वे इस मॉडल को तैनात नहीं करेंगे। एनाक्रोनिज्म-फ़िल्टरिंग पाइपलाइन अपना स्वयं का योगदान है: टीम ने बाद की तिथि की सामग्री को पकड़ने के लिए एक दस्तावेज़-स्तरीय n-ग्राम-आधारित एनाक्रोनिज्म वर्गीकरणकर्ता बनाया जो प्रकट रूप से 1931-पूर्व स्रोतों में फिसल गई थी, क्योंकि एक बार जब एक 1950 के दशक का अखबार स्कैन प्रशिक्षण सेट में लीक होता है तो लौकिक सीमा टूट जाती है। OCR गुणवत्ता खोज एक तरीके से क्रियाशील है जिसे उद्योग में पर्याप्त रूप से जोर नहीं दिया गया है: हाथ-ट्रांसक्रिप्शन पर सस्ते OCR के लिए 70% दक्षता दंड का मतलब है कि ऐतिहासिक या स्कैन किए गए पाठ पर प्रशिक्षण और ऑफ-द-शेल्फ OCR का उपयोग करने वाली कोई भी टीम मेज पर अधिकांश सीखने का संकेत छोड़ रही है। निर्देश-ट्यूनिंग विवरण भी चतुर है; लौकिक सीमा रखने के लिए IT विभाजन पूरी तरह से ऐतिहासिक स्रोतों से उत्पन्न किया गया था, केवल एक आधुनिक मॉडल का वरीयता न्यायाधीश के रूप में उपयोग किया गया, जो मॉडल को आधुनिक तथ्यात्मक ज्ञान की तस्करी के बिना निर्देश-अनुसरण व्यवहार उत्पन्न करने देता है।

व्यापक निहितार्थ यह है कि Talkie-1930 संदूषण समस्या के लिए एक उपयोगी बेंचमार्क उपकरण है जो GPT-4 के बाद से सीमावर्ती-मॉडल मूल्यांकन की शर्मिंदगी रही है। हर सार्वजनिक बेंचमार्क को स्क्रैप किया जाता है, अनुक्रमित किया जाता है और अगले प्रशिक्षण रन में अवशोषित किया जाता है, जो उन बेंचमार्क पर सीमा पर स्कोरिंग को तेजी से अर्थहीन बनाता है। एक मॉडल जिसके प्रशिक्षण डेटा 1930 में समाप्त होते हैं वह किसी भी 1930-बाद के मूल्यांकन को याद नहीं कर सकता, इसलिए उस तिथि के बाद की सामग्री को छूने वाला कोई भी कार्य शुद्ध सामान्यीकरण को मापने के लिए उपयोग किया जा सकता है। यह वही चाल है जो लोगों ने सावधानी से रखे हुए परीक्षण सेटों के साथ आज़माई है, लेकिन Talkie-1930 बार को «पिछले 96 वर्षों में कुछ भी» तक उठाता है, जो अनजाने रिसाव की कहीं अधिक बड़ी श्रेणी को हटाता है। «आधुनिक जुड़वां» तुलना ही इसे भार-वहन बनाती है: कोर भाषा समझ पर समानता जब एनाक्रोनिज्म प्रश्न फ़िल्टर किए जाते हैं, वही परिणाम है जिसे लेखक विशेष रूप से इंगित कर रहे हैं, जो सुझाव देता है कि सीमावर्ती मॉडल समकालीन डेटा से जो «सीखते» हुए दिखते हैं उसका एक सार्थक हिस्सा वास्तव में स्मृति के करीब है। क्या वह परिणाम स्वतंत्र प्रतिकृति के तहत खड़ा रहता है यह अगले 30 दिनों में जवाब मिलेगा, लेकिन कलाकृति स्वयं अब सार्वजनिक और प्रजनन योग्य है।

बिल्डरों के लिए, तीन ठोस चीजें मायने रखती हैं। पहला, यदि आप बेंचमार्क मूल्यांकन चला रहे हैं और एक संदूषण-प्रतिरोधी आधार रेखा चाहते हैं, तो talkie-1930-13b-it अब उस 13B वर्ग में मानक नियंत्रण समूह है। उस पैमाने पर क्षमता दावे प्रकाशित करने वाले किसी को भी इसके खिलाफ तुलना करनी चाहिए। दूसरा, OCR गुणवत्ता पाठ सामान्यीकृत होता है: यदि आपके डोमेन में ऐतिहासिक दस्तावेज़, स्कैन किए गए मैनुअल, अभिलेखीय मीडिया, या कोई गैर-मशीन-पठनीय कॉर्पस शामिल है, तो सस्ते OCR और स्वच्छ ट्रांसक्रिप्शन के बीच का अंतर प्रति-टोकन लागत दिखाने से कहीं अधिक बड़ा है। सही बेंचमार्क «क्या OCR पठनीय दिखता है» नहीं है बल्कि «स्वच्छ पाठ के सापेक्ष पर्प्लेक्सिटी-प्रति-टोकन लागत क्या है», और Talkie-1930 की संख्या 3.3x है। तीसरा, एक लौकिक रूप से सीमित मॉडल प्लस एक आधुनिक जुड़वां को प्रशिक्षित करने का पद्धति पैटर्न अन्य डोमेन में प्रतिकृत है। एक चिकित्सा या कानूनी मॉडल बनाने वाली टीम सिद्धांत रूप से वही चीज़ कर सकती है: पूर्व-कटऑफ क्यूरेटेड स्रोतों पर प्रशिक्षण, पोस्ट-कटऑफ मूल्यांकन सामग्री को होल्डआउट करना, और सामान्यीकरण को स्मृति से अलग करने के लिए अंतर का उपयोग करना। Talkie-1930 का काम सीमावर्ती प्रशिक्षण के सापेक्ष कंप्यूट में छोटा है लेकिन पद्धति बुनियादी ढांचे में बड़ा है, और जो पुन: उपयोग किया जाएगा वह पद्धति है।

और समाचार