ASI के लिए बौद्धिक नींव I.J. Good से आती है, एक ब्रिटिश गणितज्ञ जिन्होंने Alan Turing के साथ काम किया। 1965 में उन्होंने लिखा: "एक ultraintelligent मशीन और भी बेहतर मशीनों को design कर सकती है; तब निस्संदेह एक intelligence विस्फोट होगा, और मनुष्य की बुद्धिमत्ता बहुत पीछे छूट जाएगी।" Nick Bostrom ने अपनी 2014 की पुस्तक Superintelligence में इस विचार का विस्तार किया, यह तर्क देते हुए कि एक बार जब एक AI सिस्टम अपनी खुद की architecture और training में सुधार करने में सक्षम हो जाता है, तो यह तेज़ी से खुद को ऐसे intelligence स्तर तक bootstrap कर सकता है जो मानव cognition से उतने ही आगे हैं जितने मनुष्य कीड़ों से आगे हैं। मुख्य दावा यह नहीं है कि ASI हमसे थोड़ा smarter होगा — यह है कि अंतर असहनीय रूप से बड़ा हो सकता है, और मानव-स्तर से बहुत अधिक superhuman तक का संक्रमण दशकों के बजाय दिनों या हफ्तों में हो सकता है। यह "hard takeoff" परिदृश्य है, और यह AI सुरक्षा में सबसे अधिक बहस का विचार बना हुआ है।
अधिकांश कार्यरत AI शोधकर्ता निकट-अवधि ASI के संदेहपूर्ण हैं, और उनके पास अच्छे कारण हैं। Recursive self-improvement सिद्धांत में सुंदर लगता है लेकिन व्यावहारिक दीवारों में चलता है: एक AI सिस्टम में सुधार के लिए न केवल intelligence बल्कि डेटा, compute, और intelligence की प्रकृति में अंतर्दृष्टि की भी आवश्यकता होती है — जिनमें से कोई भी केवल smarter होने से आने की गारंटी नहीं है। इस बात का कोई सबूत नहीं है कि intelligence बिना सीमा के scale होती है, और किसी भी सिस्टम पर मौलिक computational सीमाएँ हो सकती हैं जो वह प्राप्त कर सकता है। वर्तमान AI architectures scaling से घटते रिटर्न दिखाते हैं, और एक बहुत ही सक्षम LLM से वास्तविक recursive self-improvement तक कोई ज्ञात पथ नहीं है। उस ने कहा, इन्हीं शोधकर्ताओं में से अधिकांश दीर्घकालिक जोखिम को गंभीरता से लेते हैं। तर्क "ASI असंभव है" नहीं है बल्कि "ASI तत्काल नहीं है, और इसका मार्ग शायद वैसा नहीं दिखेगा जैसा science fiction कल्पना करता है।" समस्या यह है कि यदि आप timeline के बारे में एक दशक या दो भी ग़लत हैं, और आपने तैयारी नहीं की है, तो परिणाम विनाशकारी हो सकते हैं।
Alignment — AI को वह करवाना जो हम वास्तव में चाहते हैं — पहले से ही वर्तमान सिस्टमों के साथ कठिन है। superintelligent स्तर पर, यह गुणात्मक रूप से एक अलग समस्या बन जाती है। आज की alignment तकनीकें एक सरल धारणा पर निर्भर करती हैं: मनुष्य मूल्यांकन कर सकते हैं कि क्या AI का आउटपुट अच्छा है। हम RLHF (मानव feedback से reinforcement learning) का उपयोग करते हैं क्योंकि मनुष्य एक निबंध पढ़ सकते हैं और कह सकते हैं "यह बेहतर है।" हम red-teaming का उपयोग करते हैं क्योंकि मनुष्य failure modes के लिए probe कर सकते हैं। लेकिन ये तकनीकें मौलिक रूप से आवश्यक करती हैं कि मानव मूल्यांकित किए जा रहे कार्य पर AI से smarter हो, या कम से कम अच्छे और बुरे आउटपुट को पहचानने के लिए पर्याप्त smart हो। एक superintelligent सिस्टम, परिभाषा के अनुसार, मानव मूल्यांकन क्षमता से परे operates करता है। यह ऐसे समाधान उत्पन्न कर सकता है जो हमें सही दिखते हैं लेकिन सूक्ष्म दोष रखते हैं जिन्हें हम detect नहीं कर सकते, या ऐसी रणनीतियों का पीछा कर सकता है जो हर metric पर aligned दिखाई देती हैं जिन्हें हम माप सकते हैं जबकि वास्तव में पूरी तरह से कुछ और के लिए optimize कर रहे हैं। यह एक काल्पनिक edge case नहीं है — यह केंद्रीय समस्या है। आप किसी ऐसी चीज़ को RLHF नहीं कर सकते जो आपसे smarter है, उसी कारण से जिस कारण से आप एक ऐसे क्षेत्र में PhD thesis को grade नहीं कर सकते जिसे आप समझते नहीं।
चाहे ASI दशकों दूर हो या नहीं, संभावना ठोस तरीकों से आज जो होता है उसे आकार देती है। Anthropic की स्थापना स्पष्ट रूप से इस आधार के आसपास हुई थी कि उन्नत AI अस्तित्वगत जोखिम पैदा कर सकता है, और यह विश्वास उनकी शोध प्राथमिकताओं, उनके प्रकाशन मानदंडों, और बेहतर सुरक्षा गारंटी के बदले धीमी क्षमता प्रगति को स्वीकार करने की उनकी इच्छा को संचालित करता है। OpenAI का चार्टर AGI के "सभी मानवता को लाभ पहुँचाने" के लक्ष्य का संदर्भ देता है, ऐसी भाषा जो परोक्ष रूप से ASI परिदृश्य को स्वीकार करती है। सरकारें अपने threat models में superintelligence के साथ AI नियमन का draft बना रही हैं — EU AI Act, Biden कार्यकारी आदेश, और चीन का AI governance ढाँचा सभी ऐसे प्रावधान शामिल करते हैं जो केवल तब समझ में आते हैं यदि आप transformative AI को गंभीरता से लेते हैं। Compute governance बहस — क्या सबसे बड़े प्रशिक्षण रनों तक पहुँच को प्रतिबंधित करना है — सीधे इस विचार से प्रेरित है कि अनियंत्रित scaling हमारी नियंत्रित करने की क्षमता से परे सिस्टमों का उत्पादन कर सकती है। निवेश patterns भी इसे दर्शाते हैं: alignment शोध, interpretability, और AI सुरक्षा में अरबों प्रवाहित होते हैं इसलिए नहीं कि निवेशक परोपकारी हैं बल्कि क्योंकि वे पहचानते हैं कि एक unaligned superintelligence सबसे शाब्दिक संभव अर्थ में व्यवसाय के लिए बुरा है।
ASI के आसपास का प्रवचन दो चरम सीमाओं की ओर झुकता है, और दोनों अनुपयोगी हैं। एक छोर पर, "doomers" तत्काल ASI के बाद मानव विलुप्ति को उच्च संभावना देते हैं, कभी-कभी तर्क देते हैं कि AI विकास पूरी तरह से रोक दिया जाना चाहिए। दूसरे छोर पर, dismissers superintelligence की किसी भी चर्चा को science fiction के रूप में मानते हैं, गंभीर ध्यान के योग्य नहीं। उचित मध्य ज़मीन — अधिकांश शोधकर्ताओं द्वारा कब्जा की गई जिन्होंने वास्तव में इस पर सावधानी से सोचा है — कुछ इस तरह दिखती है: ASI तत्काल नहीं है लेकिन दशकों से सदियों की timeline पर प्रशंसनीय है; जोखिम गंभीर शोध और विचारशील नीति की वारंट के लिए पर्याप्त वास्तविक हैं; वर्तमान alignment तकनीकें वास्तव में superhuman सिस्टमों के लिए अपर्याप्त हैं और हमें बहुत पहले से बेहतर विकसित करने की आवश्यकता है; और इनमें से कोई भी अर्थ नहीं है कि हमें AI बनाना बंद कर देना चाहिए, लेकिन इसका मतलब यह है कि हमें इसे सावधानी से बनाना चाहिए, वास्तविक सुरक्षा निवेश के साथ जो क्षमता निवेश के साथ scale करता है। चुनौती यह है कि यह nuanced स्थिति अच्छी सुर्खियाँ नहीं बनाती, इसलिए सार्वजनिक बहस चरम सीमाओं द्वारा हावी है जबकि उन्नत AI को सुरक्षित बनाने का वास्तविक काम शोध labs में चुपचाप होता है।