"Stochastic parrot" वाक्यांश एक विशिष्ट paper से आता है — Emily Bender, Timnit Gebru, Angelina McMillan-Major, और Margaret Mitchell द्वारा "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", 2021 में प्रकाशित। paper के वास्तविक तर्क catchphrase के सुझाव से अधिक nuanced हैं। Bender और Gebru केवल यह दावा नहीं कर रहे थे कि भाषा मॉडल मूर्ख हैं। उन्होंने चार चिंताएँ उठाईं: हमेशा-बड़े मॉडलों को प्रशिक्षित करने की पर्यावरणीय लागत, internet प्रशिक्षण डेटा में पाए गए hegemonic worldviews का encoding, मॉडलों की अपने आउटपुट को real-world अर्थ में ground करने में असमर्थता, और वह जोखिम कि fluent text लोगों को यह विश्वास करने में धोखा देता है कि इसके पीछे genuine comprehension है। paper न केवल अपनी सामग्री के लिए बल्कि अपने aftermath के लिए कुख्यात हुआ — Google ने Gebru को अपनी Ethical AI टीम से निकाल दिया उनके आंतरिक समीक्षा के लिए इसे submit करने के तुरंत बाद, फिर Mitchell को कुछ हफ्तों बाद धकेल दिया। विवाद ने उसे बदल दिया जो शायद एक मानक अकादमिक योगदान होता एक AI नैतिकता शोध के corporate नियंत्रण के बारे में एक flashpoint में।
Stochastic parrot तर्क का steel-man संस्करण मज़बूत है, और AI के साथ honest engagement के लिए इसे स्वीकार करने की आवश्यकता है। भाषा मॉडल अपने प्रशिक्षण डेटा से biases को encode करते हैं — एक fixable bug के रूप में नहीं, बल्कि मानव text से सीखने की एक संरचनात्मक feature के रूप में। उन्हें किसी भी पारंपरिक अर्थ में grounded समझ नहीं है: एक मॉडल बिना कभी taste अनुभव किए उत्तम विवरण में एक strawberry के स्वाद का वर्णन कर सकता है। फ्रंटियर मॉडलों के लिए आवश्यक computational संसाधन वास्तव में विशाल हैं, और पर्यावरणीय लागत वास्तविक हैं भले ही वे प्रति-parameter सुधार रहे हैं। सबसे महत्वपूर्ण बात यह है कि "comprehension के illusion" के बारे में paper की चेतावनी अच्छी तरह से aged है। लोग fluent text पर over-trust करते हैं। customer service या healthcare में एक chatbot की हर तैनाती साबित करती है कि उपयोगकर्ता उन सिस्टमों को समझ attribute करते हैं जिनके पास कोई नहीं है, कम से कम उस तरीके से नहीं जिस तरह मनुष्य "समझ" का अर्थ रखते हैं।
सबसे मज़बूत प्रति-तर्क उन क्षमताओं से आते हैं जो paper लिखे जाने के बाद उभरीं। Chain-of-thought reasoning, जहाँ मॉडल चरण दर चरण समस्याओं के माध्यम से काम करते हैं और सही उत्तरों पर पहुँचते हैं जिन्हें वे एक एकल pass में नहीं पहुँच सकते थे, शुद्ध सांख्यिकीय mimicry के रूप में समझाना कठिन है। In-context learning — prompt में कुछ उदाहरणों से पूरी तरह से नए कार्यों को pick up करने की क्षमता, बिना किसी weight updates के — किसी भी चीज़ से परे जाता है जो parrots करते हैं। मॉडल नवीन समस्याओं के लिए working कोड लिख सकते हैं, उन भाषाओं के बीच translate कर सकते हैं जिनके लिए उन्होंने सीमित parallel डेटा देखा है, और उन स्थितियों के लिए निर्देशों को सामान्यीकृत कर सकते हैं जो उनके प्रशिक्षण उदाहरणों से काफी अलग हैं। यदि यह "केवल" pattern matching है, तो pattern matching metaphor के सुझाव से कहीं अधिक शक्तिशाली है। प्रश्न यह नहीं है कि क्या मॉडल pattern matchers हैं (वे हैं), बल्कि यह है कि क्या पर्याप्त पैमाने पर pattern matching कुछ ऐसा उत्पन्न करती है जो functionally reasoning के समकक्ष है।
यहीं बातचीत वास्तव में दार्शनिक हो जाती है, और honestly, अनसुलझी। John Searle का Chinese Room thought experiment — जहाँ एक व्यक्ति Chinese symbols को manipulate करने के लिए नियमों का पालन करता है बिना Chinese को समझे — सीधे stochastic parrot बहस पर map होता है। LLM क्षमता के रक्षक functional समकक्षता के लिए तर्क देते हैं: यदि एक सिस्टम ऐसे आउटपुट उत्पन्न करता है जो समझ से अप्रभेद्य हैं, तो क्या आंतरिक mechanism मायने रखता है? आलोचक तर्क देते हैं कि physical अनुभव और genuine intentionality में grounding के बिना, कोई भी मात्रा में text manipulation समझ का गठन नहीं करती। दोनों पक्षों का एक बिंदु है, और honest उत्तर यह है कि हमारे पास मानव cognition के लिए भी "समझ" की एक संतोषजनक consensus परिभाषा नहीं है। Pragmatist की प्रतिक्रिया यह है कि यह मायने नहीं रखता हो सकता है। यदि एक मॉडल आपके कोड में एक bug का diagnose कर सकता है, एक physics अवधारणा को स्पष्ट रूप से समझा सकता है, या एक क़ानूनी brief draft कर सकता है जिसे एक वकील उपयोगी पाता है, तो इसकी "समझ" का दार्शनिक status इस बात से कम महत्वपूर्ण है कि क्या आउटपुट सही और helpful है।
अधिकांश गंभीर AI शोधकर्ता binary "parrot बनाम वास्तविक intelligence" framing से आगे बढ़ चुके हैं। दिलचस्प प्रश्न अब यह नहीं है कि क्या LLMs भाषा को समझते हैं — यह यह है कि किस प्रकार की cognition हो रही है, और यह विश्वसनीय रूप से क्या कर सकती है और क्या नहीं। मॉडल स्पष्ट रूप से parroting से अधिक कुछ करते हैं, लेकिन वे स्पष्ट रूप से उन चीज़ों की भी कमी रखते हैं जो मनुष्यों के पास हैं: बातचीत में persistent memory, embodied अनुभव, consistent विश्वास, यह जानने की क्षमता कि वे क्या नहीं जानते। Stochastic parrot label hype के विरुद्ध एक check के रूप में उपयोगी बना हुआ है — एक अनुस्मारक कि fluent text सच के समान नहीं है, और प्रभावशाली आउटपुट robust reasoning की गारंटी नहीं देते। लेकिन बड़े भाषा मॉडल क्या कर रहे हैं इसके पूर्ण विवरण के रूप में, यह GPT-4 के आसपास कहीं adequate होना बंद हो गया। क्षेत्र को बेहतर metaphors की आवश्यकता है, और अधिक महत्वपूर्ण रूप से, यह समझने के लिए बेहतर अनुभवजन्य tools की कि ये सिस्टम वास्तव में क्या सीखते हैं।