NVIDIA 发布了 SANA-WM,一个 26 亿参数的开源世界模型,接受一张 720p 图像加上 6-DoF 相机轨迹作为输入,产生一段 60 秒 720p 视频。该发布对通常不公开的所有部分都是具体的:64 块 H100 GPU 在约 18.5 天的训练上,来自七个数据集(SpatialVID-HQ、DL3DV 真实与合成、OmniWorld、Sekai Game 和 Walking-HQ、MiraData)的 212,975 个视频片段,带有公制尺度的 6-DoF 相机注释,代码采用 Apache 2.0 许可证在 github.com/NVlabs/Sana,arXiv 预印本 2605.15178,以及一个蒸馏推理变体,在单张 RTX 5090 上使用 NVFP4 量化在 34 GPU 秒内产生完整的 60 秒片段。最后那个数字是头条:在不到实时的时间内在消费级硬件上生成一分钟长的 720p 视频。
架构是成本降低所在。SANA-WM 是一个 Diffusion Transformer,在 LTX2-VAE 编码器的潜在帧上操作;骨干网络是 20 个 transformer 层,划分为 15 个 frame-wise Gated DeltaNet(GDN)块与 5 个标准 softmax 注意力块交错。60 秒 720p 压缩到 961 个潜在帧,标准 softmax 注意力在该序列长度上以 O(n²) 内存扩展——这恰恰是把每个先前的开源世界模型踢出单 GPU 部署的原因。GDN 用一个恒定大小的递归状态(维度 D×D)替换了大多数块,该状态以 O(1) 按帧扩展,与长度无关。这种替换是使 32GB 卡上分钟级 720p 成为可能的工程决策。两个相机条件分支处理 6-DoF 控制:一个粗糙的 UCPE 通道,将 ray-local 相机基础从 camera-to-world 姿态和内参注入注意力头,以及一个精细的 Plücker 通道,通过计算像素级 Plücker 射线图(6D 方向-力矩对)并将它们打包成 48 通道张量在 self-attention 之后注入,解决 8-帧-每-潜在的压缩不匹配。
报告的基准:在相机精度上,简单 split 4.50° 旋转误差,困难 split 8.34°;两个 split 上的 VBench 总分 80.62 和 81.89。NVIDIA 突出的吞吐量比较是 8 块 H100 上每小时 22 个视频用于包括 refiner 的完整流水线——大约是发布的 LingBot-World 14B+14B 堆栈的 36 倍,后者在等效硬件上每小时约 0.6 个视频。发布了三个推理变体:双向版本 49.2 GB 用于离线批处理使用,块因果自回归版本 51.1 GB 用于流式生成,蒸馏加 NVFP4 量化版本适合 RTX 5090 单 GPU 路径。混合许可证框架很重要:代码是 Apache 2.0,但权重和数据集在论文表 11 中记录的独立许可证下——在 SANA-WM 之上发布商业产品之前阅读它们。
对于考虑在堆栈中加入视频生成的构建者:这是第一个可信的开源世界模型,其中推理经济学在消费级硬件上合理,方法论完全公开。1,999 美元消费级卡上每视频 34 GPU 秒的数字改变了任何想要大规模生成相机控制视频的产品的成本曲线——机器人模拟、游戏原型、虚拟侦察、动画工具。剩下的难点是数据集和权重许可,而不是计算。值得在你自己的评估任务上运行;按 GPU 小时的数学表明这是第一个开放发布,你实际上可以使用。关注第三方对 VBench 数字的复现,特别是相机精度数字,它们是任何依赖于忠实轨迹跟踪而不是仅仅看似合理的视频的下游应用所关心的指标。
