AlphaGo के डेविड सिल्वर फिर से जोर देते हैं: LLM गलत रास्ता हैं, अनुभव से RL ही सही रास्ता है

AlphaGo, AlphaZero और MuZero के पीछे के प्रमुख वास्तुकार डेविड सिल्वर ने इस सप्ताह Wired को साक्षात्कार दिया, जिसमें उन्होंने अपने नए स्टार्टअप Ineffable Intelligence के मुख्य तर्क को दोहराया: बड़े भाषा मॉडल सुपरइंटेलिजेंस के रास्ते पर नहीं हैं। सिल्वर ने इस साल की शुरुआत में Ineffable लॉन्च करने के लिए Google DeepMind छोड़ दिया, और Sequoia ने लगभग 4 अरब डॉलर की प्री-मनी वैल्यूएशन पर 1 अरब डॉलर का सीड राउंड लीड किया। यह थीसिस सीधे उनके पिछले साल के «Era of Experience» पेपर से आती है, जो रिच सटन के साथ सह-लिखा गया था: अल्बर्टा स्कूल की लाइन कि बुद्धिमत्ता एजेंटों से आती है जो पर्यावरण के साथ बातचीत करके और इनाम संकेत प्राप्त करके सीखते हैं, न कि मानव लेखन में अगले टोकन की भविष्यवाणी करने के लिए प्रशिक्षित न्यूरल नेटवर्क से। Wired में सिल्वर का विशिष्ट दावा: हम मानव ज्ञान से आगे जाना चाहते हैं, और इसके लिए हमें एक अलग तरह की विधि की जरूरत होगी, ऐसी विधि जिसके लिए हमारे AI को खुद चीजें खोजनी होंगी।

शीर्षक के पीछे की तकनीकी सामग्री फ्रेमिंग से अधिक सटीक है। सिल्वर यह नहीं कह रहे कि LLM काम नहीं करते; वे कह रहे हैं कि LLM मानव-निर्मित पाठ के वितरण से ऊपर बंधे हैं। AlphaGo की मूव 37 और AlphaZero की शतरंज में नई चालें वह अस्तित्व प्रमाण हैं जिस पर वे टिके हैं: स्पष्ट इनाम संकेत वाले वातावरण में काम करने वाला एक RL एजेंट ऐसी रणनीतियों की खोज कर सकता है जो किसी मानव ने नहीं लिखी थीं, क्योंकि एजेंट मानव से नहीं सीख रहा, वह खेल से सीख रहा है। यह एक वास्तविक परिणाम है, और यह अगले-टोकन भविष्यवाणी से सार्थक रूप से अलग है। ईमानदार चेतावनी यह है कि AlphaGo और AlphaZero बंद नियमों, पूर्ण जानकारी और स्पष्ट जीत/हार इनाम वाले डोमेन में काम करते थे: गो, शतरंज, शोगी, वीडियो गेम। उसी दृष्टिकोण को भौतिक-दुनिया के कार्यों, बहु-चरण अनुसंधान या खुले प्रश्न-समाधान तक सामान्यीकृत करना पंद्रह साल से एक खुला अनुसंधान प्रश्न रहा है और बना हुआ है। सिल्वर का दांव है कि वास्तविक-दुनिया मापन में आधारित लचीले इनाम कार्य, जिसे Era of Experience पेपर ग्राउंडेड रिवॉर्ड कहता है (स्वास्थ्य एजेंट के लिए हृदय गति, जलवायु एजेंट के लिए CO2) वह अंतर भर देंगे। क्या वे भरते हैं यह अनुभवजन्य है और अनसुलझा है।

बिल्डर दर्शकों के लिए, LLM बनाम RL की फ्रेमिंग ज्यादातर एक झूठी द्विभाजिकता है जिससे प्रेस कवरेज प्रतिरोध नहीं कर सकती। हर सीमावर्ती लैब पहले से ही दोनों का संश्लेषण चला रही है। RLHF एक LLM पर RL है। सत्यापन योग्य इनाम के साथ RL, जो o-series और Claude तर्क मॉडल के पीछे की रेसिपी है, एक LLM पर प्रोग्रामेटिक इनाम के साथ RL है। उपकरण उपयोग और सत्यापनकर्ताओं वाली एजेंटिक प्रणालियाँ, जिस दिशा में पूरा उद्योग पिछले अठारह महीनों में स्थानांतरित हुआ है, एक वातावरण में LLM पर RL है। प्रश्न यह नहीं है कि RL या LLM जीतते हैं; प्रश्न यह है कि क्या आपको भाषा-पूर्व-प्रशिक्षित बैकबोन की जरूरत है, या क्या एक पर्याप्त बड़ा RL एजेंट पहले मानव लेखन के कोष को अवशोषित किए बिना कच्चे अनुभव से सीख सकता है। सिल्वर का दांव है कि नहीं, आपको इसकी जरूरत नहीं है। यह Wired शीर्षक के सुझाव से कहीं अधिक आक्रामक दावा है, और यह वास्तव में विरोधी है: अधिकांश क्षेत्र, जिसमें अधिकांश पूर्व-DeepMind शामिल हैं, सोचता है कि भाषा पूर्व-प्रशिक्षण नीचे की धारा हर चीज के लिए एक उपयोगी पूर्व है। सिल्वर की स्थिति का बौद्धिक रूप से ईमानदार संस्करण: भाषा पूर्व-प्रशिक्षण एक शॉर्टकट है जो आपको मानव ज्ञान पर सीमित करता है, और इसके बिना स्केल कर सकने वाली एक प्रणाली अंततः न कर सकने वाली प्रणाली को पार कर जाएगी।

डेवलपर निष्कर्ष यह है कि तकनीकी दावे को गंभीरता से लें और मार्केटिंग द्विभाजिकता को नजरअंदाज करें। यदि आप आज एजेंट बना रहे हैं, तो व्यावहारिक बाधा LLM बनाम RL नहीं है, यह इनाम डिजाइन है: जिन डोमेन में आप एक सत्यापनकर्ता लिख सकते हैं, वहाँ LLM पर RL असाधारण रूप से अच्छा काम करता है और रेसिपी लैब्स में अभिसरित हो रही है। जिनमें आप नहीं लिख सकते (अधिकांश वास्तविक व्यावसायिक कार्य, अधिकांश अनुसंधान वर्कफ़्लो) वहाँ आप RLHF या पर्यवेक्षित नकल पर वापस आते हैं, जो सिल्वर द्वारा झंडी दी गई मानव-डेटा छत को विरासत में लेता है। तो सिल्वर अनुभवजन्य रूप से सही हैं कि दीवार कहाँ है, भले ही वे इस बारे में गलत हों कि उसे पार करने के लिए LLM बैकबोन को फेंकना जरूरी है या नहीं। Ineffable Intelligence दांव को एक विशिष्ट कारण से देखने योग्य है: यदि 1 अरब एक सीमावर्ती-स्केल शुद्ध-RL एजेंट खरीदता है जो कच्चे अनुभव से सीखता है और भाषा पूर्व-प्रशिक्षण के बिना LLM-जैसी सामान्यता तक पहुँचता है, तो यह वास्तुकला बातचीत को रीसेट करता है। यदि वह एक डोमेन-विशिष्ट RL प्रणाली खरीदता है जो एक संकीर्ण लंबवत में अच्छा काम करती है और कभी सामान्यीकृत नहीं होती, तो यह संश्लेषण दृष्टिकोण की पुष्टि करता है। दोनों परिणाम जानकारीपूर्ण हैं; अगले 18 से 24 महीने हमें बताएँगे कौन सा।

AlphaGo के डेविड सिल्वर फिर से जोर देते हैं: LLM गलत रास्ता हैं, अनुभव से RL ही सही रास्ता है

और समाचार