Runway联合创始人兼CEO Cristóbal Valenzuela周三登上TechCrunch的Equity播客,提出了一个Runway自2025年12月发布GWM-1以来一直在传递的战略主张:视频生成只是手段,目的是通用世界模型。支撑这一主张的数据:Runway累计融资约8.6亿美元,其中包括2026年2月以53亿美元估值完成的E轮3.15亿美元融资。底层产品是GWM-1(General World Model 1)——一个建立在Gen-4.5之上的自回归模型,逐帧生成、实时运行,并可通过相机姿态、机器人指令或音频进行交互式控制。同时推出三个专门变体:GWM Worlds(可探索环境)、GWM Avatars(对话型角色)和GWM Robotics(操作训练)。客户构成——电影工作室、广告代理、游戏、建筑,加上机器人和自动驾驶公司——讲了一个故事:好莱坞是收入的一半,而"模拟即训练数据"是另一半。

让GWM-1在架构上区别于纯视频生成的,是"自回归 + 动作可控"这一组合。当前大多数生成式视频(Veo 3、Sora,甚至Runway自己的Gen-3/4)都是roll-out式的:你给一个prompt,模型产出一个固定片段,你没法在生成中途介入。GWM-1更像一个仿真引擎——生成一帧,接受一个动作输入,基于该动作生成下一帧,如此往复,且在实时下进行。这与游戏引擎或物理仿真器的循环模式完全相同,只是用学习得到的模型替换了手写规则。动作词表很重要:Worlds处理相机姿态动作(向前走、向左转),Robotics处理末端执行器指令(移动夹爪、合手),Avatars处理音频输入(用户的声音驱动角色回应)。一个底座模型,三套动作空间,三个产品面。

更宏观的战略定位才是更有意思的问题。DeepMind的Genie 3交付的是具有视频游戏级品质的可交互环境;李飞飞的World Labs围绕"现实的模拟"在空间AI维度融资同一类命题;Meta的V-JEPA系列(LeCun的押注)瞄准的是更认知向的解读——模型理解物理,而不是把物理渲染出来。Runway的独特选择是坐在这条光谱中"渲染引擎"的一端,以"实时自回归生成"作为承重原语——离"可玩的好莱坞"更近,离"思考物理"更远。Valenzuela在播客中的框架——电影制作真正的瓶颈从来不是技术——是这一押注的上游版本:当生成变得免费,瓶颈就从生产移到了创作权,而同一种原语(一个能响应动作的模拟世界)既服务电影人也服务机器人学家。这是一个有力的pitch,但论据还很早期;GWM-1的12月发布之后是NVIDIA Rubin平台合作的消息,但没有任何关于推理成本、控制保真度、机器人策略迁移率的详细独立基准。

对builder而言,有三点收获。第一,如果你在做任何需要合成环境数据的东西——训练机器人策略、为自动驾驶栈生成视觉训练数据、原型一个游戏关卡——世界模型现在是除了手工搭建的仿真器(Isaac Sim、Unity ML-Agents)和纯渲染流水线之外的第三个可行选项。权衡是:世界模型每帧比专用游戏引擎慢,但在场景构成上的灵活性远高于后者。第二,"动作可控性"是正确的架构透镜——用动作空间大小、动作-到-帧延迟,以及在长动作序列下的一致性(世界会不会漂?机器人夹爪会不会去到你让它去的位置?)来评估世界模型。这些指标正开始出现在研究基准里,但厂商不会先从这些去拉宣传。第三,留意视频模型与世界模型的收敛——如果Runway、Google、Meta、World Labs都在未来12个月内交付实时、动作可控的模型,那么"视频生成"这个类别就成为"世界模拟"的严格子集。这会压扁竞争图景,并重构Runway真正的竞争对手:不只是Veo和Sora,还有Isaac Sim、Genie和Unreal Engine。