AlphaGo、AlphaZero 和 MuZero 的首席架构师 David Silver 本周接受 Wired 访谈,重申了他新创公司 Ineffable Intelligence 的核心论点:大型语言模型不在通往超级智能的路径上。Silver 今年早些时候离开 Google DeepMind 去创办 Ineffable,Sequoia 领投了 10 亿美元的种子轮,估值约 40 亿美元 pre-money。这个论点直接追溯到他去年与 Rich Sutton 合著的《Era of Experience》论文:阿尔伯塔学派的观点是,智能来自智能体与环境交互并接收奖励信号的学习过程,而不是来自训练去预测人类文本下一个 token 的神经网络。Silver 在 Wired 中的具体说法:我们想超越人类已知,要做到这一点就需要一种不同类型的方法,这种方法要求我们的 AI 自己去发现事物。
标题背后的技术内容比框架更精确。Silver 不是说 LLM 不工作;他说 LLM 被人类生成文本的分布所封顶。AlphaGo 的第 37 手和 AlphaZero 在国际象棋上的新创意是他依赖的存在性证明:一个在带有清晰奖励信号的环境中运作的 RL 智能体可以发现没有人类写过的策略,因为这个智能体不是从人类学习,它是从游戏学习。这是一个真实结果,而且与下一 token 预测做的事在本质上不同。诚实的注解是,AlphaGo 和 AlphaZero 运作在规则封闭、信息完美、胜负奖励无歧义的领域:围棋、国际象棋、将棋、电子游戏。把同一方法泛化到物理世界任务、多步研究或开放性问题求解,这是一个开放研究问题,已经开放了十五年还没解决。Silver 的赌注是,扎根于真实世界测量的灵活奖励函数(《Era of Experience》论文称之为扎根奖励——健康智能体的心率、气候智能体的 CO2 读数)填补了这个鸿沟。它们能否填补是经验问题,目前未解。
对于工程师读者来说,LLM 对 RL 这个框架在很大程度上是个伪二分法,但媒体报道无法抗拒它。每个前沿实验室都已经在跑两者的合成。RLHF 就是 LLM 上的 RL。带可验证奖励的 RL,也就是 o-series 和 Claude 推理模型背后的配方,就是 LLM 上带程序化奖励的 RL。带工具调用和验证器的智能体系统,整个行业过去十八个月转向的方向,就是环境中 LLM 上的 RL。问题不是 RL 或 LLM 谁赢;问题是你是否需要一个语言预训练的骨干,或者一个足够大的 RL 智能体能否在不先吸收人类写作语料的情况下从原始经验中学习。Silver 的赌注是不需要。这个主张比 Wired 标题暗示的要激进得多,而且是真正反共识的:大多数领域,包括大多数 DeepMind 校友,都认为语言预训练是下游一切任务的有用先验。Silver 立场的智识诚实版本是:语言预训练是一个捷径,它把你封顶在人类知识,一个能不靠它扩展的系统最终会超越靠它的系统。
对开发者的实操建议是认真对待技术主张、忽略营销二分。如果你今天在建智能体,实操瓶颈不是 LLM 还是 RL,而是奖励设计:在你能写出验证器的领域,LLM 上的 RL 工作得极好,配方正在各实验室间收敛。在你写不出的领域——大多数真实业务任务、大多数研究工作流——你回落到 RLHF 或监督模仿,这继承了 Silver 指出的人类数据天花板。所以 Silver 对墙在哪里这个经验问题是对的,即使他对要不要扔掉 LLM 骨干才能越墙这一点可能错。Ineffable Intelligence 的赌注值得跟踪有一个具体原因:如果这 10 亿美元买出一个前沿规模的纯 RL 智能体,它从原始经验中学习并在没有语言预训练的情况下接近 LLM 那样的通用性,那架构对话就被重置了。如果买出一个特定领域的 RL 系统,在窄垂直领域工作得好但永远不泛化,那就确认了合成视图。两种结果都是有信息量的;接下来 18 到 24 个月会告诉我们是哪一种。
