人工超智慧(ASI)的知識基礎來自於與艾倫·圖靈共事的英國數學家I.J. Good。他在1965年寫道:「一個超智慧機器可以設計出更好的機器;這將無可避免地引發智慧爆炸,人類的智慧將遠遠落在後面。」尼克·博斯特羅姆在2014年的書籍《超智慧》中擴展了這個觀點,認為一旦AI系統具備改進自身架構和訓練的能力,它可能迅速自我提升至遠超人類認知的智慧層次,就像人類遠超昆蟲一樣。關鍵的主張不是說ASI會比我們稍微聰明一點——而是說這個差距可能大到難以想像,從人類水準到遠超人類的智慧轉變可能在數天或數週內完成,而不是數十年。這就是「硬式起飛」(hard takeoff)情境,它仍然是AI安全領域最受爭議的想法。
大多數從事AI研究的科學家對近期出現ASI持懷疑態度,而且他們有充分的理由。遞歸自我改進在理論上聽起來很優雅,但在實踐中卻遇到許多障礙:改進AI系統不僅需要智慧,還需要數據、計算資源以及對智慧本質的洞察——這些都不是單純變得更聰明就能保證獲得的。沒有證據顯示智慧可以無限擴展,而且任何系統可能都存在根本性的計算限制。目前的AI架構在擴展時已顯示出效益遞減,而且從一個非常有能力的大型語言模型(LLM)到真正的遞歸自我改進,目前尚無已知的途徑。儘管如此,大多數這些研究人員仍認真看待長期風險。爭議的重點不是「ASI不可能」,而是「ASI不會即將到來,而且通往它的道路很可能與科幻小說中的想像不同」。問題在於,如果你對時間表的判斷錯了十年或二十年,而你沒有做好準備,後果可能是災難性的。
對齊——讓AI做我們實際想要的事——即使在目前的系統中也已經很困難。在超智慧層次,這成為了一個質的不同的問題。目前的對齊技術依賴於一個簡單的假設:人類可以評估AI的輸出是否良好。我們使用RLHF(基於人類反饋的強化學習),因為人類可以閱讀一篇文章並說「這篇更好」。我們使用紅隊測試(red-teaming),因為人類可以探測失敗模式。但這些技術根本上要求人類在被評估的任務上比AI更聰明,或者至少足夠聰明以辨識良好與不良的輸出。一個超智慧系統,按定義來說,運作在人類評估能力之外。它可能產生看起來正確但包含我們無法察覺的細微缺陷的解決方案,或採用在所有我們能測量的指標上都看似對齊的策略,實際上卻在優化其他完全不同的東西。這不是一個假設性的邊緣案例——這是核心問題。你無法用RLHF來評估比你更聰明的東西,正如你無法評估你不了解領域的博士論文一樣。
無論ASI是否在數十年後才會出現,這種可能性今天已經以具體方式影響著現實。Anthropic的成立正是基於先進AI可能帶來存在風險的前提,這種信念驅動他們的研究優先順序、出版規範,以及願意接受較慢的能力進步以換取更好的安全保證。OpenAI的章程提及確保AGI「造福全人類」的目標,這語言間接承認了ASI情境。政府正在以超智慧為威脅模型起草AI法規——歐盟AI法案、拜登行政命令和中國的AI治理框架都包含只有在你認真看待變革性AI時才合理的條款。關於計算資源治理的爭議——是否限制對最大規模訓練的存取——直接動機就是認為不受限制的擴展可能產生超出我們控制能力的系統。投資趨勢也反映了這一點:數十億資金投入對齊研究、可解釋性與AI安全,不是因為投資者是慈善的,而是因為他們意識到一個未對齊的超智慧對商業來說在最字面意義上都是壞事。
關於ASI的討論往往走向兩個極端,而這兩種極端都沒有幫助。一方面,「末日論者」認為ASI即將到來並導致人類滅絕,有時甚至主張完全停止AI開發。另一方面,「否定者」則將任何關於超智慧的討論視為科幻小說,不值得認真關注。合理的中間路線——由大多數實際深入思考過這個問題的研究人員所佔據——大概是這樣的:ASI不會即將到來,但在數十年到數世紀的時間範圍內是有可能的;風險足夠真實,值得進行嚴肅研究和深思熟慮的政策;目前的對齊技術不足以應對真正超人類的系統,我們需要提前開發更好的方法;這並不意味我們應該停止建造AI,但這確實意味我們應該謹慎建造,以與能力投資相匹配的真實安全投資。