AlphaGo 之父 David Silver 重申：LLM 是错路，从经验中强化学习才是正路

AlphaGo、AlphaZero 和 MuZero 的首席架构师 David Silver 本周接受 Wired 访谈，重申了他新创公司 Ineffable Intelligence 的核心论点：大型语言模型不在通往超级智能的路径上。Silver 今年早些时候离开 Google DeepMind 去创办 Ineffable，Sequoia 领投了 10 亿美元的种子轮，估值约 40 亿美元 pre-money。这个论点直接追溯到他去年与 Rich Sutton 合著的《Era of Experience》论文：阿尔伯塔学派的观点是，智能来自智能体与环境交互并接收奖励信号的学习过程，而不是来自训练去预测人类文本下一个 token 的神经网络。Silver 在 Wired 中的具体说法：我们想超越人类已知，要做到这一点就需要一种不同类型的方法，这种方法要求我们的 AI 自己去发现事物。

标题背后的技术内容比框架更精确。Silver 不是说 LLM 不工作；他说 LLM 被人类生成文本的分布所封顶。AlphaGo 的第 37 手和 AlphaZero 在国际象棋上的新创意是他依赖的存在性证明：一个在带有清晰奖励信号的环境中运作的 RL 智能体可以发现没有人类写过的策略，因为这个智能体不是从人类学习，它是从游戏学习。这是一个真实结果，而且与下一 token 预测做的事在本质上不同。诚实的注解是，AlphaGo 和 AlphaZero 运作在规则封闭、信息完美、胜负奖励无歧义的领域：围棋、国际象棋、将棋、电子游戏。把同一方法泛化到物理世界任务、多步研究或开放性问题求解，这是一个开放研究问题，已经开放了十五年还没解决。Silver 的赌注是，扎根于真实世界测量的灵活奖励函数（《Era of Experience》论文称之为扎根奖励——健康智能体的心率、气候智能体的 CO2 读数）填补了这个鸿沟。它们能否填补是经验问题，目前未解。

对于工程师读者来说，LLM 对 RL 这个框架在很大程度上是个伪二分法，但媒体报道无法抗拒它。每个前沿实验室都已经在跑两者的合成。RLHF 就是 LLM 上的 RL。带可验证奖励的 RL，也就是 o-series 和 Claude 推理模型背后的配方，就是 LLM 上带程序化奖励的 RL。带工具调用和验证器的智能体系统，整个行业过去十八个月转向的方向，就是环境中 LLM 上的 RL。问题不是 RL 或 LLM 谁赢；问题是你是否需要一个语言预训练的骨干，或者一个足够大的 RL 智能体能否在不先吸收人类写作语料的情况下从原始经验中学习。Silver 的赌注是不需要。这个主张比 Wired 标题暗示的要激进得多，而且是真正反共识的：大多数领域，包括大多数 DeepMind 校友，都认为语言预训练是下游一切任务的有用先验。Silver 立场的智识诚实版本是：语言预训练是一个捷径，它把你封顶在人类知识，一个能不靠它扩展的系统最终会超越靠它的系统。

对开发者的实操建议是认真对待技术主张、忽略营销二分。如果你今天在建智能体，实操瓶颈不是 LLM 还是 RL，而是奖励设计：在你能写出验证器的领域，LLM 上的 RL 工作得极好，配方正在各实验室间收敛。在你写不出的领域——大多数真实业务任务、大多数研究工作流——你回落到 RLHF 或监督模仿，这继承了 Silver 指出的人类数据天花板。所以 Silver 对墙在哪里这个经验问题是对的，即使他对要不要扔掉 LLM 骨干才能越墙这一点可能错。Ineffable Intelligence 的赌注值得跟踪有一个具体原因：如果这 10 亿美元买出一个前沿规模的纯 RL 智能体，它从原始经验中学习并在没有语言预训练的情况下接近 LLM 那样的通用性，那架构对话就被重置了。如果买出一个特定领域的 RL 系统，在窄垂直领域工作得好但永远不泛化，那就确认了合成视图。两种结果都是有信息量的；接下来 18 到 24 个月会告诉我们是哪一种。

AlphaGo 之父 David Silver 重申：LLM 是错路，从经验中强化学习才是正路

更多新闻