NVIDIA 發布了 SANA-WM,一個 26 億參數的開源世界模型,接受一張 720p 影像加上 6-DoF 相機軌跡作為輸入,產生一段 60 秒 720p 影片。該發布對通常不公開的所有部分都是具體的:64 張 H100 GPU 在約 18.5 天的訓練上,來自七個資料集(SpatialVID-HQ、DL3DV 真實與合成、OmniWorld、Sekai Game 和 Walking-HQ、MiraData)的 212,975 個影片片段,帶有公制尺度的 6-DoF 相機註解,程式碼採用 Apache 2.0 授權在 github.com/NVlabs/Sana,arXiv 預印本 2605.15178,以及一個蒸餾推理變體,在單張 RTX 5090 上使用 NVFP4 量化在 34 GPU 秒內產生完整的 60 秒片段。最後那個數字是頭條:在不到即時的時間內在消費級硬體上生成一分鐘長的 720p 影片。

架構是成本降低所在。SANA-WM 是一個 Diffusion Transformer,在 LTX2-VAE 編碼器的潛在影格上操作;骨幹網路是 20 個 transformer 層,劃分為 15 個 frame-wise Gated DeltaNet(GDN)區塊與 5 個標準 softmax 注意力區塊交錯。60 秒 720p 壓縮到 961 個潛在影格,標準 softmax 注意力在該序列長度上以 O(n²) 記憶體擴展——這恰恰是把每個先前的開源世界模型踢出單 GPU 部署的原因。GDN 用一個恆定大小的遞迴狀態(維度 D×D)替換了大多數區塊,該狀態以 O(1) 按影格擴展,與長度無關。這種替換是使 32GB 卡上分鐘級 720p 成為可能的工程決策。兩個相機條件分支處理 6-DoF 控制:一個粗糙的 UCPE 通道,將 ray-local 相機基礎從 camera-to-world 姿態和內參注入注意力頭,以及一個精細的 Plücker 通道,透過計算像素級 Plücker 射線圖(6D 方向-力矩對)並將它們打包成 48 通道張量在 self-attention 之後注入,解決 8-影格-每-潛在的壓縮不匹配。

報告的基準:在相機精度上,簡單 split 4.50° 旋轉誤差,困難 split 8.34°;兩個 split 上的 VBench 總分 80.62 和 81.89。NVIDIA 突出的吞吐量比較是 8 張 H100 上每小時 22 個影片用於包括 refiner 的完整流水線——大約是發布的 LingBot-World 14B+14B 堆疊的 36 倍,後者在等效硬體上每小時約 0.6 個影片。發布了三個推理變體:雙向版本 49.2 GB 用於離線批處理使用,區塊因果自迴歸版本 51.1 GB 用於串流生成,蒸餾加 NVFP4 量化版本適合 RTX 5090 單 GPU 路徑。混合授權框架很重要:程式碼是 Apache 2.0,但權重和資料集在論文表 11 中記錄的獨立授權下——在 SANA-WM 之上發布商業產品之前閱讀它們。

對於考慮在堆疊中加入影片生成的建構者:這是第一個可信的開源世界模型,其中推理經濟學在消費級硬體上合理,方法論完全公開。1,999 美元消費級卡上每影片 34 GPU 秒的數字改變了任何想要大規模生成相機控制影片的產品的成本曲線——機器人模擬、遊戲原型、虛擬偵察、動畫工具。剩下的難點是資料集和權重授權,而不是計算。值得在你自己的評估任務上運行;按 GPU 小時的數學表明這是第一個開放發布,你實際上可以使用。關注第三方對 VBench 數字的複現,特別是相機精度數字,它們是任何依賴於忠實軌跡追蹤而不是僅僅看似合理的影片的下游應用所關心的指標。