Runway的Valenzuela登Equity播客:影片生成只是序章——GWM-1世界模型、三種變體、53億美元估值,以及「模擬比好萊塢更大」的押注

Runway共同創辦人兼CEO Cristóbal Valenzuela週三登上TechCrunch的Equity播客,提出了一個Runway自2025年12月發布GWM-1以來一直在傳遞的戰略主張:影片生成只是手段,目的是通用世界模型。支撐這一主張的數據:Runway累計融資約8.6億美元,其中包括2026年2月以53億美元估值完成的E輪3.15億美元融資。底層產品是GWM-1(General World Model 1)——一個建立在Gen-4.5之上的自迴歸模型,逐幀生成、即時執行,並可透過相機姿態、機器人指令或音訊進行互動式控制。同時推出三個專門變體:GWM Worlds(可探索環境)、GWM Avatars(對話型角色)和GWM Robotics(操作訓練)。客戶構成——電影工作室、廣告代理、遊戲、建築,加上機器人和自動駕駛公司——講了一個故事:好萊塢是收入的一半,而「模擬即訓練資料」是另一半。

讓GWM-1在架構上區別於純影片生成的,是「自迴歸 + 動作可控」這一組合。當前大多數生成式影片(Veo 3、Sora,甚至Runway自己的Gen-3/4)都是roll-out式的:你給一個prompt,模型產出一個固定片段,你沒法在生成中途介入。GWM-1更像一個模擬引擎——生成一幀,接受一個動作輸入,基於該動作生成下一幀,如此往復,且在即時下進行。這與遊戲引擎或物理模擬器的循環模式完全相同,只是用學習得到的模型替換了手寫規則。動作詞表很重要:Worlds處理相機姿態動作(向前走、向左轉),Robotics處理末端執行器指令(移動夾爪、合手),Avatars處理音訊輸入(使用者的聲音驅動角色回應)。一個底座模型,三套動作空間,三個產品面。

更宏觀的戰略定位才是更有意思的問題。DeepMind的Genie 3交付的是具有電玩遊戲級品質的可互動環境;李飛飛的World Labs圍繞「現實的模擬」在空間AI維度融資同一類命題;Meta的V-JEPA系列(LeCun的押注)瞄準的是更認知向的解讀——模型理解物理,而不是把物理渲染出來。Runway的獨特選擇是坐在這條光譜中「渲染引擎」的一端,以「即時自迴歸生成」作為承重原語——離「可玩的好萊塢」更近,離「思考物理」更遠。Valenzuela在播客中的框架——電影製作真正的瓶頸從來不是技術——是這一押注的上游版本:當生成變得免費,瓶頸就從生產移到了創作權,而同一種原語(一個能回應動作的模擬世界)既服務電影人也服務機器人學家。這是一個有力的pitch,但論據還很早期;GWM-1的12月發布之後是NVIDIA Rubin平台合作的消息,但沒有任何關於推論成本、控制保真度、機器人策略遷移率的詳細獨立基準。

對builder而言,有三點收穫。第一,如果你在做任何需要合成環境資料的東西——訓練機器人策略、為自動駕駛堆疊生成視覺訓練資料、原型一個遊戲關卡——世界模型現在是除了手工搭建的模擬器(Isaac Sim、Unity ML-Agents)和純渲染管線之外的第三個可行選項。權衡是:世界模型每幀比專用遊戲引擎慢,但在場景構成上的彈性遠高於後者。第二,「動作可控性」是正確的架構透鏡——用動作空間大小、動作-到-幀延遲,以及在長動作序列下的一致性(世界會不會漂?機器人夾爪會不會去到你讓它去的位置?)來評估世界模型。這些指標正開始出現在研究基準裡,但廠商不會先從這些去拉宣傳。第三,留意影片模型與世界模型的收斂——如果Runway、Google、Meta、World Labs都在未來12個月內交付即時、動作可控的模型,那麼「影片生成」這個類別就成為「世界模擬」的嚴格子集。這會壓扁競爭圖景,並重構Runway真正的競爭對手:不只是Veo和Sora,還有Isaac Sim、Genie和Unreal Engine。

Runway的Valenzuela登Equity播客:影片生成只是序章——GWM-1世界模型、三種變體、53億美元估值,以及「模擬比好萊塢更大」的押注

更多新聞