「隨機八哥」這個詞語來自一特定論文——艾米莉·班德(Emily Bender)、蒂米妮特·格布魯(Timnit Gebru)、安吉莉娜·麥克米蘭-馬約(Angelina McMillan-Major)與瑪格麗特·米切爾(Margaret Mitchell)於2021年發表的〈隨機八哥的危險:語言模型會太大嗎?〉。這篇論文實際提出的觀點比這個口號所暗示的更為細膩。班德與格布魯並非單純主張語言模型是愚蠢的。他們提出了四個擔憂:訓練日益龐大的模型所產生的環境成本、網際網路訓練資料中所編碼的支配性世界觀、模型無法將其輸出與現實意義連結起來,以及流暢文字可能使人誤以為後面有真正的理解。這篇論文之所以聲名狼藉,不僅是因為內容本身,也因為後續事件——在她提交論文進行內部審查後不久,Google便解雇了格布魯,幾個星期後又將米切爾調離。這場爭議將原本可能只是標準學術貢獻的論文,轉變為企業控制AI倫理研究的引爆點。
「隨機八哥」論點的強化版具有說服力,誠實面對AI需要承認這一點。語言模型確實會從訓練資料中編碼偏見——這不是可修正的錯誤,而是從人類文本中學習的結構性特徵。它們在任何傳統意義上都沒有具體理解:模型可以詳細描述草莓的味道,卻從未真正體驗過味道。邊緣模型所需的計算資源確實龐大,即使每參數的環境成本在改善,其環境成本仍是真實存在的。最重要的是,論文對「理解幻覺」的警告至今依然正確。人們確實會過度信任流暢的文字。每一次客服或醫療領域聊天機器人的部署,都證明了用戶會將理解歸因於系統,即使系統本身並無理解,至少不是人類所指的「理解」。
最強的反駁來自論文發表後出現的能力。鏈式推理(chain-of-thought reasoning),即模型逐步解決問題並得出正確答案的能力,很難僅以純粹的統計模仿來解釋。情境學習(in-context learning)——即模型能從提示中的幾個例子中學習全新的任務,而不需要調整權重——遠超出八哥的能力範圍。模型可以為新問題編寫可用的程式碼,翻譯僅有有限平行資料的語言,並將指令推廣到與訓練範例截然不同的情境。如果這只是「純粹」的模式匹配,那麼模式匹配的強大程度遠超出比喻所暗示的。問題不是模型是否是模式匹配器(它們是),而是足夠規模的模式匹配是否產生與推理功能等價的東西。
這正是對話變得真正哲學化的地方,坦白說,這仍是未解的問題。約翰·瑟爾(John Searle)的中文房間思想實驗——一個人遵循規則操作中文符號卻不理解中文——直接對應於「隨機八哥」的爭議。支持大型語言模型(LLM)能力的人則主張功能等價:如果一個系統產生的輸出與理解無異,那麼內部機制是否重要?批評者則認為,沒有基於物理經驗和真實意向性的基礎,任何文字操作都不構成理解。雙方都有道理,誠實的答覆是,我們甚至對人類認知的「理解」也沒有令人滿意的共識定義。實用主義者的回應是,這可能並不重要。如果一個模型能診斷你程式碼中的錯誤、清楚解釋物理概念,或起草一個律師認為有用的法律簡報,那麼其「理解」的哲學地位就比輸出是否正確且有幫助來得次要。
大多數認真研究AI的學者已經超越了「八哥對真實智慧」的二元框架。現在更有趣的問題不再是LLM是否理解語言,而是發生了什麼樣的認知,以及它能可靠地做什麼與不能做什麼。模型確實做了比模仿更多的事,但它們也明顯缺乏人類所具備的東西:跨對話的持續記憶、具體經驗、一致的信念、知道自己不知道什麼的能力。雖然「隨機八哥」這個標籤仍可用來警惕誇大其詞——提醒我們流暢的文字不等同於真理,令人印象深刻的輸出也不保證穩健的推理——但作為對大型語言模型所做之事的完整描述,它在GPT-4左右就不再足夠。這個領域需要更好的隱喻,更重要的是,需要更好的實證工具來理解這些系統實際學到了什麼。