關於「突現能力」的爭議始於2022年一篇由Google與BIG-Bench合作團隊發表的論文。BIG-Bench是一個包含超過200項任務的大型基準測試套件。他們測試了不同規模的語言模型,發現了一個驚人的現象:在許多任務上,小型和中型模型的表現幾乎是隨機的(接近隨機),但當模型參數數量超過某個門檻值時,表現會突然大幅提升。Wei等人發表的論文〈大型語言模型的突現能力〉繪製了這些曲線,其模式非常戲劇性——能力似乎像燈一樣突然開啟,而非逐漸出現。這種描述吸引了整個領域的關注。如果模型僅僅通過規模擴張就能獲得質的全新能力,那麼規模擴張不僅僅是工程上的挑戰,更可能是一條通往真正驚人智能的途徑。
這些例子令人信服。GPT-3(1750億參數)可以完成GPT-2(15億參數)無法處理的少樣本算術問題。多步推理——模型需要串聯邏輯推論的任務——只出現在超過某個規模的模型中。模型從未明確訓練過的語言對之間的翻譯能力,在規模足夠大時才會出現。程式碼生成——根據自然語言描述撰寫可用程式的功能——在100億至1000億參數之間從無用變為實用。文字重組——似乎需要某些內部拼寫表示的任務——在一個狹窄的參數範圍內從0%跳升至近完美。這種模式在BIG-Bench的數十個任務中重複出現:平緩、平緩、平緩,然後突然具備能力。這看起來像是規模擴張產生了真正的相變——模型能力的質變,而不僅僅是處理熟悉任務表現的量變。
2023年,史丹福大學的Rylan Schaeffer、Brando Miranda和Sanmi Koyejo發表了一項直接挑戰。他們的論點非常精確:突現能力不是模型本身的特性,而是評估指標的特性。BIG-Bench中顯示出明顯轉變的任務大多使用不連續的指標——完全匹配準確度,這種指標對幾乎正確的答案毫無獎勵。一個模型從0.1%逐步提升至5%再到30%正確率的表現,看起來像是什麼都沒做,什麼都沒做,什麼都沒做,然後突然表現良好,因為部分正確的分數不存在。當Schaeffer等人使用連續性指標(如對數似然或詞元層準確度)重新評估相同模型在相同任務上的表現時,這些明顯的轉變消失了。表現隨著規模擴張平滑且可預測地提升。所謂的「突現」只是選擇無法檢測漸進改進的指標所產生的藝術效果。這不僅僅是方法論上的小細節。如果正確,這意味著AI中最令人興奮的敘事——更大的模型會自發產生新能力——部分只是測量上的幻覺。
這場爭議的影響遠遠超出學術興趣。如果突現能力是真實的——如果模型在特定規模下真的獲得預料之外的能力——那麼安全規劃面臨根本問題:你無法為無法預見的能力做準備。一個在1000億參數下無害的模型,可能在1兆參數下突然發展出說服能力、欺騙策略或工具使用技巧,而規模曲線中毫無預警。這就是為何要謹慎、逐步擴張規模,並在每個階段進行廣泛評估的核心論點。如果突現能力主要是測量藝術,情況就更令人安心:能力會平滑且可預測地提升,因此在較小規模的評估結果能提供關於較大模型表現的有意義訊號。這兩種解釋的安全意涵幾乎完全相反,這就是為何爭議雙方都真誠地希望得出正確答案。
坦白說,這個領域尚未達成共識。史丹福的批評廣泛被接受為證明某些報告的突現能力是測量藝術——這部分毫無爭議。但許多研究人員認為批評並未解釋一切。某些能力,特別是涉及組合性(以新方式組合學習技能)、規劃和多步推理的能力,確實顯示出難以僅用指標選擇解釋的真正質變。對於正在做規模決策的實驗室來說,實際結果是混合訊息:你可能比原突現論文所暗示的更能可靠預測下一步改進,但你不應假設所有驚喜都已被解釋。謹慎的做法——大多數前沿實驗室都採用——是在每次規模提升時進行廣泛評估,並維持中斷機制以防出現意外。無論你將結果稱為「突現」還是「我們未能正確測量的可預測改進」,關鍵在於你是否準備好應對。