AlphaGo 之父 David Silver 重申：LLM 是錯路，從經驗中強化學習才是正路

AlphaGo、AlphaZero 和 MuZero 的首席架構師 David Silver 本週接受 Wired 訪談，重申了他新創公司 Ineffable Intelligence 的核心論點：大型語言模型不在通往超級智能的路徑上。Silver 今年稍早離開 Google DeepMind 去創辦 Ineffable，Sequoia 領投了 10 億美元的種子輪，估值約 40 億美元 pre-money。這個論點直接追溯到他去年與 Rich Sutton 合著的《Era of Experience》論文：阿爾伯塔學派的觀點是，智能來自智能體與環境互動並接收獎勵訊號的學習過程，而不是來自訓練去預測人類文本下一個 token 的神經網路。Silver 在 Wired 中的具體說法：我們想超越人類已知，要做到這一點就需要一種不同類型的方法，這種方法要求我們的 AI 自己去發現事物。

標題背後的技術內容比框架更精確。Silver 不是說 LLM 不工作；他說 LLM 被人類生成文本的分布所封頂。AlphaGo 的第 37 手和 AlphaZero 在國際象棋上的新創意是他依賴的存在性證明：一個在帶有清晰獎勵訊號的環境中運作的 RL 智能體可以發現沒有人類寫過的策略，因為這個智能體不是從人類學習，它是從遊戲學習。這是一個真實結果，而且與下一 token 預測做的事在本質上不同。誠實的註解是，AlphaGo 和 AlphaZero 運作在規則封閉、資訊完美、勝負獎勵無歧義的領域：圍棋、國際象棋、將棋、電子遊戲。把同一方法泛化到物理世界任務、多步研究或開放性問題求解，這是一個開放研究問題，已經開放了十五年還沒解決。Silver 的賭注是，紮根於真實世界測量的靈活獎勵函數（《Era of Experience》論文稱之為紮根獎勵——健康智能體的心率、氣候智能體的 CO2 讀數）填補了這個鴻溝。它們能否填補是經驗問題，目前未解。

對於工程師讀者來說，LLM 對 RL 這個框架在很大程度上是個偽二分法，但媒體報導無法抗拒它。每個前沿實驗室都已經在跑兩者的合成。RLHF 就是 LLM 上的 RL。帶可驗證獎勵的 RL，也就是 o-series 和 Claude 推理模型背後的配方，就是 LLM 上帶程式化獎勵的 RL。帶工具呼叫和驗證器的智能體系統，整個行業過去十八個月轉向的方向，就是環境中 LLM 上的 RL。問題不是 RL 或 LLM 誰贏；問題是你是否需要一個語言預訓練的骨幹，或者一個足夠大的 RL 智能體能否在不先吸收人類寫作語料的情況下從原始經驗中學習。Silver 的賭注是不需要。這個主張比 Wired 標題暗示的要激進得多，而且是真正反共識的：大多數領域，包括大多數 DeepMind 校友，都認為語言預訓練是下游一切任務的有用先驗。Silver 立場的智識誠實版本是：語言預訓練是一個捷徑，它把你封頂在人類知識，一個能不靠它擴展的系統最終會超越靠它的系統。

對開發者的實操建議是認真對待技術主張、忽略行銷二分。如果你今天在建智能體，實操瓶頸不是 LLM 還是 RL，而是獎勵設計：在你能寫出驗證器的領域，LLM 上的 RL 工作得極好，配方正在各實驗室間收斂。在你寫不出的領域——大多數真實業務任務、大多數研究工作流——你回落到 RLHF 或監督模仿，這繼承了 Silver 指出的人類資料天花板。所以 Silver 對牆在哪裡這個經驗問題是對的，即使他對要不要扔掉 LLM 骨幹才能越牆這一點可能錯。Ineffable Intelligence 的賭注值得追蹤有一個具體原因：如果這 10 億美元買出一個前沿規模的純 RL 智能體，它從原始經驗中學習並在沒有語言預訓練的情況下接近 LLM 那樣的通用性，那架構對話就被重置了。如果買出一個特定領域的 RL 系統，在窄垂直領域工作得好但永遠不泛化，那就確認了合成視圖。兩種結果都是有資訊量的；接下來 18 到 24 個月會告訴我們是哪一種。

AlphaGo 之父 David Silver 重申：LLM 是錯路，從經驗中強化學習才是正路

更多新聞