Netflix开源了VOID,这是一个视频扩散模型,能够从视频中移除物体的同时理解这些物体与场景的物理交互。基于CogVideoX构建,使用Google的Kubric和Adobe的HUMOTO合成数据进行微调,VOID能处理因果关系——如果你移除一个拿着吉他的人,吉他会自然下落而不是悬浮在半空中。该系统需要40GB以上的VRAM,并配备两个transformer检查点,可以单独运行或组合运行以获得更好的时间一致性。
这解决了VFX团队熟知的真实生产痛点。标准的修复模型是精密的背景绘制器,但它们不会推理物理规律。移除场景中的演员后,你会得到违反重力的悬浮道具。Netflix在其内容管道中大规模处理这个问题,VOID代表了他们基于实际生产需求而非学术好奇心构建的解决方案。
实现细节揭示了工程复杂性:VOID结合了多个AI系统,包括Meta的SAM2用于分割、Gemini 3 Pro用于场景分析,以及第二遍的光流校正。Apache 2.0许可证意味着允许商业使用,这很重要,因为Netflix通常对其内部工具采取保护性方法。40GB VRAM的要求将实际采用限制在A100级别硬件上,尽管教程建议T4/L4可能通过CPU卸载工作。
对开发者而言,这更多的是理解视频AI发展方向,而非立即部署。VOID表明有效的视频编辑AI需要多模型编排和物理推理,而不仅仅是更好的修复技术。开源发布为构建者提供了生产级视频操作工作流的参考实现,即使计算要求使大多数独立开发者今天无法企及。
