Netflix VOID开源：具备物理感知的视频物体移除技术

Netflix开源了VOID，这是一个视频扩散模型，能够从视频中移除物体的同时理解这些物体与场景的物理交互。基于CogVideoX构建，使用Google的Kubric和Adobe的HUMOTO合成数据进行微调，VOID能处理因果关系——如果你移除一个拿着吉他的人，吉他会自然下落而不是悬浮在半空中。该系统需要40GB以上的VRAM，并配备两个transformer检查点，可以单独运行或组合运行以获得更好的时间一致性。

这解决了VFX团队熟知的真实生产痛点。标准的修复模型是精密的背景绘制器，但它们不会推理物理规律。移除场景中的演员后，你会得到违反重力的悬浮道具。Netflix在其内容管道中大规模处理这个问题，VOID代表了他们基于实际生产需求而非学术好奇心构建的解决方案。

实现细节揭示了工程复杂性：VOID结合了多个AI系统，包括Meta的SAM2用于分割、Gemini 3 Pro用于场景分析，以及第二遍的光流校正。Apache 2.0许可证意味着允许商业使用，这很重要，因为Netflix通常对其内部工具采取保护性方法。40GB VRAM的要求将实际采用限制在A100级别硬件上，尽管教程建议T4/L4可能通过CPU卸载工作。

对开发者而言，这更多的是理解视频AI发展方向，而非立即部署。VOID表明有效的视频编辑AI需要多模型编排和物理推理，而不仅仅是更好的修复技术。开源发布为构建者提供了生产级视频操作工作流的参考实现，即使计算要求使大多数独立开发者今天无法企及。

Netflix VOID开源：具备物理感知的视频物体移除技术

更多新闻