Emergence बहस Google और BIG-Bench पर काम करने वाले सहयोगियों के 2022 के paper से शुरू हुई, जो 200 से अधिक कार्यों के साथ एक विशाल benchmark suite है। उन्होंने आकारों की एक सीमा में भाषा मॉडलों का परीक्षण किया और कुछ चौंकाने वाला पाया: कई कार्यों पर, छोटे और मध्यम मॉडलों के लिए प्रदर्शन अनिवार्य रूप से flat (random के पास) था, फिर तेज़ी से कूद गया एक बार जब एक मॉडल एक निश्चित parameter threshold को पार कर गया। Wei et al. द्वारा paper, "Emergent Abilities of Large Language Models", ने इन curves को plot किया और pattern नाटकीय था — क्षमताएँ धीरे-धीरे fade in होने के बजाय एक प्रकाश की तरह switch on होती दिखीं। framing ने क्षेत्र की कल्पना को capture किया। यदि मॉडल केवल बड़े होने से गुणात्मक रूप से नई क्षमताएँ प्राप्त कर सकते हैं, तो scaling केवल एक इंजीनियरिंग चुनौती नहीं थी बल्कि वास्तव में आश्चर्यजनक intelligence का एक मार्ग थी।
उदाहरण convincing थे। GPT-3 (175 अरब parameters) few-shot arithmetic कर सकता था जिसे GPT-2 (1.5 अरब) छू भी नहीं सकता था। Multi-step reasoning, जहाँ एक मॉडल को logical inferences को chain करना होता है, केवल एक निश्चित आकार के ऊपर मॉडलों में दिखाई दिया। ऐसी भाषा pairs के बीच translation जिन पर मॉडल को कभी स्पष्ट रूप से प्रशिक्षित नहीं किया गया था, scale पर दिखाई दी। Code generation — natural language descriptions से working programs लिखने की क्षमता — 10 और 100 अरब parameters के बीच कहीं बेकार से functional तक चली गई। Word unscrambling, एक कार्य जिसके लिए spelling के कुछ आंतरिक representation की आवश्यकता प्रतीत होती है, एक संकीर्ण parameter सीमा पर 0% से लगभग पूर्ण तक कूद गया। दर्जनों BIG-Bench कार्यों में pattern दोहराया गया: flat, flat, flat, फिर अचानक क्षमता। यह इस बात का सबूत लगता था कि scaling वास्तविक phase transitions उत्पन्न करता था — एक मॉडल क्या कर सकता है इसमें गुणात्मक shifts, न कि केवल इस बात में मात्रात्मक सुधार कि इसने परिचित चीज़ें कितनी अच्छी तरह कीं।
2023 में, Stanford में Rylan Schaeffer, Brando Miranda, और Sanmi Koyejo ने एक सीधी चुनौती प्रकाशित की। उनका तर्क सटीक था: emergence मॉडल की एक गुणवत्ता नहीं है बल्कि metric की एक गुणवत्ता है। तीव्र transitions दिखाने वाले BIG-Bench कार्यों ने अधिकांशतः discontinuous metrics का उपयोग किया — exact-match accuracy, जहाँ आपको लगभग-सही उत्तरों के लिए कोई credit नहीं मिलता। एक मॉडल जो धीरे-धीरे 0.1% से 5% से 30% सही तक सुधरता है ऐसा दिखता है जैसे यह कुछ नहीं कर रहा है, कुछ नहीं, कुछ नहीं, फिर अचानक प्रदर्शन कर रहा है, क्योंकि partial credit मौजूद नहीं है। जब Schaeffer et al. ने log-likelihood या token-level accuracy जैसे continuous metrics का उपयोग करके उन्हीं कार्यों पर उन्हीं मॉडलों का पुनर्मूल्यांकन किया, तो तीव्र transitions गायब हो गए। Performance smoothly और पूर्वानुमेय रूप से scale के साथ सुधरा। "emergence" ऐसे metrics चुनने का एक artifact था जो धीरे-धीरे सुधार का पता नहीं लगा सकते थे। यह एक छोटी methodological आपत्ति नहीं थी। यदि सही है, तो इसका अर्थ था कि AI में सबसे रोमांचक narrative — कि बड़े मॉडल spontaneously नई क्षमताएँ विकसित करते हैं — आंशिक रूप से एक माप भ्रम था।
इस बहस के दाँव अकादमिक रुचि से बहुत आगे जाते हैं। यदि emergence वास्तविक है — यदि मॉडल वास्तव में कुछ scales पर unpredicted क्षमताएँ प्राप्त करते हैं — तो safety planning एक मौलिक समस्या का सामना करती है: आप उन क्षमताओं के लिए तैयारी नहीं कर सकते जिन्हें आप पूर्वानुमान नहीं लगा सकते। एक मॉडल जो 100 अरब parameters पर हानिरहित है scaling curve में किसी चेतावनी के बिना 1 ट्रिलियन parameters पर persuasion क्षमताएँ, deception रणनीतियाँ, या tool-use कौशल विकसित कर सकता है। यह सावधान, incremental scaling के लिए मूल तर्क है हर step पर व्यापक मूल्यांकन के साथ। यदि emergence मुख्य रूप से एक माप artifact है, तो तस्वीर अधिक आश्वस्त करने वाली है: क्षमताएँ smoothly और पूर्वानुमेय रूप से सुधरती हैं, इसलिए छोटे scales पर मूल्यांकन आपको बड़े मॉडलों से क्या अपेक्षा करनी है इसके बारे में सार्थक signal देते हैं। हर interpretation के safety निहितार्थ लगभग विपरीत हैं, यही कारण है कि बहस के दोनों पक्ष उत्तर को सही प्राप्त करने में वास्तव में निवेशित हैं।
ईमानदार उत्तर यह है कि क्षेत्र ने सहमति नहीं बनाई है। Stanford की आलोचना को व्यापक रूप से इस बात के प्रदर्शन के रूप में स्वीकार किया जाता है कि कुछ रिपोर्ट की गई emergent क्षमताएँ माप artifacts थीं — वह हिस्सा गंभीरता से विवादित नहीं है। लेकिन कई शोधकर्ता बनाए रखते हैं कि आलोचना सब कुछ नहीं समझाती। कुछ क्षमताएँ, विशेष रूप से वे जो compositionality (नवीन तरीकों से सीखे गए कौशल को संयोजित करना), planning, और multi-step reasoning शामिल करती हैं, वास्तव में वास्तविक गुणात्मक shifts दिखाती प्रतीत होती हैं जो अकेले metric विकल्प द्वारा आसानी से नहीं समझाई जातीं। scaling निर्णय लेने वाली labs के लिए व्यावहारिक परिणाम एक मिश्रित संदेश है: आप संभवतः next-step सुधारों की भविष्यवाणी मूल emergence papers द्वारा सुझाए गए की तुलना में अधिक विश्वसनीय रूप से कर सकते हैं, लेकिन आपको यह नहीं मानना चाहिए कि सभी आश्चर्य समझाए जा चुके हैं। विवेकपूर्ण दृष्टिकोण — अधिकांश फ्रंटियर labs द्वारा अपनाया गया — हर scale वृद्धि पर व्यापक रूप से मूल्यांकन करना और कुछ अप्रत्याशित प्रकट होने पर रुकने के लिए बुनियादी ढाँचा बनाए रखना है। चाहे आप परिणामी आश्चर्यों को "emergence" कहें या "पूर्वानुमेय सुधार जिसे हम ठीक से मापने में विफल रहे" कम मायने रखता है इस बात से कि क्या आप उन्हें संभालने के लिए तैयार हैं।