隨機鸚鵡：定義與含義 — AI 維基

對大型語言模型的批評指出，它們僅僅是高階的模式匹配器，僅能拼接出看似合理但缺乏真正理解的文本。這個術語由艾米莉·班德（Emily Bender）、蒂米妮特·格布魯（Timnit Gebru）及其同事在其具有影響力的2021年論文《On the Dangers of Stochastic Parrots》中提出，該論文警告說，大型語言模型會從訓練數據中編碼偏見，消耗龐大的資源，並產生一種理解的幻覺，導致使用者過度信任他們。

為什麼重要

機率八哥的爭議直指AI實際上「理解」的是什麼。LLMs究竟是真正進行推理，還是僅僅擅長統計模仿，這將影響我們如何部署它們、對其輸出的信任程度，以及如何監管它們。這也是批評者評估每一項新功能聲稱的透鏡——這是否是真正的進步，還是一個更具說服力的八哥？

深度解析

「隨機八哥」這個詞語來自一特定論文——艾米莉·班德（Emily Bender）、蒂米妮特·格布魯（Timnit Gebru）、安吉莉娜·麥克米蘭-馬約（Angelina McMillan-Major）與瑪格麗特·米切爾（Margaret Mitchell）於2021年發表的〈隨機八哥的危險：語言模型會太大嗎？〉。這篇論文實際提出的觀點比這個口號所暗示的更為細膩。班德與格布魯並非單純主張語言模型是愚蠢的。他們提出了四個擔憂：訓練日益龐大的模型所產生的環境成本、網際網路訓練資料中所編碼的支配性世界觀、模型無法將其輸出與現實意義連結起來，以及流暢文字可能使人誤以為後面有真正的理解。這篇論文之所以聲名狼藉，不僅是因為內容本身，也因為後續事件——在她提交論文進行內部審查後不久，Google便解雇了格布魯，幾個星期後又將米切爾調離。這場爭議將原本可能只是標準學術貢獻的論文，轉變為企業控制AI倫理研究的引爆點。

批評正確之處

「隨機八哥」論點的強化版具有說服力，誠實面對AI需要承認這一點。語言模型確實會從訓練資料中編碼偏見——這不是可修正的錯誤，而是從人類文本中學習的結構性特徵。它們在任何傳統意義上都沒有具體理解：模型可以詳細描述草莓的味道，卻從未真正體驗過味道。邊緣模型所需的計算資源確實龐大，即使每參數的環境成本在改善，其環境成本仍是真實存在的。最重要的是，論文對「理解幻覺」的警告至今依然正確。人們確實會過度信任流暢的文字。每一次客服或醫療領域聊天機器人的部署，都證明了用戶會將理解歸因於系統，即使系統本身並無理解，至少不是人類所指的「理解」。

八哥做不到的事

最強的反駁來自論文發表後出現的能力。鏈式推理（chain-of-thought reasoning），即模型逐步解決問題並得出正確答案的能力，很難僅以純粹的統計模仿來解釋。情境學習（in-context learning）——即模型能從提示中的幾個例子中學習全新的任務，而不需要調整權重——遠超出八哥的能力範圍。模型可以為新問題編寫可用的程式碼，翻譯僅有有限平行資料的語言，並將指令推廣到與訓練範例截然不同的情境。如果這只是「純粹」的模式匹配，那麼模式匹配的強大程度遠超出比喻所暗示的。問題不是模型是否是模式匹配器（它們是），而是足夠規模的模式匹配是否產生與推理功能等價的東西。

理解的爭議

這正是對話變得真正哲學化的地方，坦白說，這仍是未解的問題。約翰·瑟爾（John Searle）的中文房間思想實驗——一個人遵循規則操作中文符號卻不理解中文——直接對應於「隨機八哥」的爭議。支持大型語言模型（LLM）能力的人則主張功能等價：如果一個系統產生的輸出與理解無異，那麼內部機制是否重要？批評者則認為，沒有基於物理經驗和真實意向性的基礎，任何文字操作都不構成理解。雙方都有道理，誠實的答覆是，我們甚至對人類認知的「理解」也沒有令人滿意的共識定義。實用主義者的回應是，這可能並不重要。如果一個模型能診斷你程式碼中的錯誤、清楚解釋物理概念，或起草一個律師認為有用的法律簡報，那麼其「理解」的哲學地位就比輸出是否正確且有幫助來得次要。

目前的討論現狀

大多數認真研究AI的學者已經超越了「八哥對真實智慧」的二元框架。現在更有趣的問題不再是LLM是否理解語言，而是發生了什麼樣的認知，以及它能可靠地做什麼與不能做什麼。模型確實做了比模仿更多的事，但它們也明顯缺乏人類所具備的東西：跨對話的持續記憶、具體經驗、一致的信念、知道自己不知道什麼的能力。雖然「隨機八哥」這個標籤仍可用來警惕誇大其詞——提醒我們流暢的文字不等同於真理，令人印象深刻的輸出也不保證穩健的推理——但作為對大型語言模型所做之事的完整描述，它在GPT-4左右就不再足夠。這個領域需要更好的隱喻，更重要的是，需要更好的實證工具來理解這些系統實際學到了什麼。

隨機鸚鵡