AlphaGo、AlphaZero 和 MuZero 的首席架構師 David Silver 本週接受 Wired 訪談,重申了他新創公司 Ineffable Intelligence 的核心論點:大型語言模型不在通往超級智能的路徑上。Silver 今年稍早離開 Google DeepMind 去創辦 Ineffable,Sequoia 領投了 10 億美元的種子輪,估值約 40 億美元 pre-money。這個論點直接追溯到他去年與 Rich Sutton 合著的《Era of Experience》論文:阿爾伯塔學派的觀點是,智能來自智能體與環境互動並接收獎勵訊號的學習過程,而不是來自訓練去預測人類文本下一個 token 的神經網路。Silver 在 Wired 中的具體說法:我們想超越人類已知,要做到這一點就需要一種不同類型的方法,這種方法要求我們的 AI 自己去發現事物。

標題背後的技術內容比框架更精確。Silver 不是說 LLM 不工作;他說 LLM 被人類生成文本的分布所封頂。AlphaGo 的第 37 手和 AlphaZero 在國際象棋上的新創意是他依賴的存在性證明:一個在帶有清晰獎勵訊號的環境中運作的 RL 智能體可以發現沒有人類寫過的策略,因為這個智能體不是從人類學習,它是從遊戲學習。這是一個真實結果,而且與下一 token 預測做的事在本質上不同。誠實的註解是,AlphaGo 和 AlphaZero 運作在規則封閉、資訊完美、勝負獎勵無歧義的領域:圍棋、國際象棋、將棋、電子遊戲。把同一方法泛化到物理世界任務、多步研究或開放性問題求解,這是一個開放研究問題,已經開放了十五年還沒解決。Silver 的賭注是,紮根於真實世界測量的靈活獎勵函數(《Era of Experience》論文稱之為紮根獎勵——健康智能體的心率、氣候智能體的 CO2 讀數)填補了這個鴻溝。它們能否填補是經驗問題,目前未解。

對於工程師讀者來說,LLM 對 RL 這個框架在很大程度上是個偽二分法,但媒體報導無法抗拒它。每個前沿實驗室都已經在跑兩者的合成。RLHF 就是 LLM 上的 RL。帶可驗證獎勵的 RL,也就是 o-series 和 Claude 推理模型背後的配方,就是 LLM 上帶程式化獎勵的 RL。帶工具呼叫和驗證器的智能體系統,整個行業過去十八個月轉向的方向,就是環境中 LLM 上的 RL。問題不是 RL 或 LLM 誰贏;問題是你是否需要一個語言預訓練的骨幹,或者一個足夠大的 RL 智能體能否在不先吸收人類寫作語料的情況下從原始經驗中學習。Silver 的賭注是不需要。這個主張比 Wired 標題暗示的要激進得多,而且是真正反共識的:大多數領域,包括大多數 DeepMind 校友,都認為語言預訓練是下游一切任務的有用先驗。Silver 立場的智識誠實版本是:語言預訓練是一個捷徑,它把你封頂在人類知識,一個能不靠它擴展的系統最終會超越靠它的系統。

對開發者的實操建議是認真對待技術主張、忽略行銷二分。如果你今天在建智能體,實操瓶頸不是 LLM 還是 RL,而是獎勵設計:在你能寫出驗證器的領域,LLM 上的 RL 工作得極好,配方正在各實驗室間收斂。在你寫不出的領域——大多數真實業務任務、大多數研究工作流——你回落到 RLHF 或監督模仿,這繼承了 Silver 指出的人類資料天花板。所以 Silver 對牆在哪裡這個經驗問題是對的,即使他對要不要扔掉 LLM 骨幹才能越牆這一點可能錯。Ineffable Intelligence 的賭注值得追蹤有一個具體原因:如果這 10 億美元買出一個前沿規模的純 RL 智能體,它從原始經驗中學習並在沒有語言預訓練的情況下接近 LLM 那樣的通用性,那架構對話就被重置了。如果買出一個特定領域的 RL 系統,在窄垂直領域工作得好但永遠不泛化,那就確認了合成視圖。兩種結果都是有資訊量的;接下來 18 到 24 個月會告訴我們是哪一種。