Netflix開源了VOID,這是一個影片擴散模型,能夠從影片中移除物件的同時理解這些物件與場景的物理互動。基於CogVideoX建構,使用Google的Kubric和Adobe的HUMOTO合成資料進行微調,VOID能處理因果關係——如果你移除一個拿著吉他的人,吉他會自然下落而不是懸浮在半空中。該系統需要40GB以上的VRAM,並配備兩個transformer檢查點,可以單獨執行或組合執行以獲得更好的時間一致性。
這解決了VFX團隊熟知的真實製作痛點。標準的修復模型是精密的背景繪製器,但它們不會推理物理定律。移除場景中的演員後,你會得到違反重力的懸浮道具。Netflix在其內容管道中大規模處理這個問題,VOID代表了他們基於實際製作需求而非學術好奇心建構的解決方案。
實作細節揭示了工程複雜性:VOID結合了多個AI系統,包括Meta的SAM2用於分割、Gemini 3 Pro用於場景分析,以及第二遍的光流校正。Apache 2.0授權意味著允許商業使用,這很重要,因為Netflix通常對其內部工具採取保護性做法。40GB VRAM的要求將實際採用限制在A100級別硬體上,儘管教學建議T4/L4可能透過CPU卸載工作。
對開發者而言,這更多的是理解影片AI發展方向,而非立即部署。VOID表明有效的影片編輯AI需要多模型編排和物理推理,而不僅僅是更好的修復技術。開源發布為建構者提供了生產級影片操作工作流程的參考實作,即使計算要求使大多數獨立開發者今天無法企及。
