Netflix研究人员发布了VOID(Video Object and Interaction Deletion),这是一个能从视频中移除对象同时保持物理真实感的AI模型。该模型基于CogVideoX构建,通过"quadmask conditioning"进行微调,VOID超越了标准的视频修复技术,它能理解因果关系——当你移除一个拿着吉他的人时,吉他会自然下落而不是悬浮在空中。该模型在合成和真实视频测试中都超越了包括ProPainter、DiffuEraser和Runway在内的现有工具。
这很重要,因为当前的视频编辑工作流在处理物理效果时遇到了严重瓶颈。好莱坞VFX团队需要花费数周时间手动修复对象移除后的交互效果——确保阴影消失、反射更新、对象遵循重力。VOID通过推理场景动力学而非仅仅填充像素来自动化这一过程。这就像精密背景绘画与真正理解对象交互时世界如何运作之间的区别。
技术方法直接但巧妙:采用经过验证的视频生成模型(来自Alibaba PAI的CogVideoX-Fun-V1.5-5b-InP),并通过专门的mask conditioning教会它思考物理关系。"quadmask"系统帮助模型理解不仅要移除什么,还要理解应该产生什么次级效果。Netflix决定开源这项技术表明他们对自己的领先地位很有信心,并希望加速整个行业的采用。
对于开发者来说,这标志着物理感知视频编辑正在从研究好奇转向生产工具。该模型基于现有基础设施(CogVideoX)而非需要全新架构,使集成更加可行。预计视频编辑API将在明年开始融入交互感知移除功能——问题是它们能否达到Netflix的质量,还是只是声称理解物理效果却仍然产生悬浮的吉他。
