Netflix VOID開源：具備物理感知的影片物件移除技術

Netflix開源了VOID，這是一個影片擴散模型，能夠從影片中移除物件的同時理解這些物件與場景的物理互動。基於CogVideoX建構，使用Google的Kubric和Adobe的HUMOTO合成資料進行微調，VOID能處理因果關係——如果你移除一個拿著吉他的人，吉他會自然下落而不是懸浮在半空中。該系統需要40GB以上的VRAM，並配備兩個transformer檢查點，可以單獨執行或組合執行以獲得更好的時間一致性。

這解決了VFX團隊熟知的真實製作痛點。標準的修復模型是精密的背景繪製器，但它們不會推理物理定律。移除場景中的演員後，你會得到違反重力的懸浮道具。Netflix在其內容管道中大規模處理這個問題，VOID代表了他們基於實際製作需求而非學術好奇心建構的解決方案。

實作細節揭示了工程複雜性：VOID結合了多個AI系統，包括Meta的SAM2用於分割、Gemini 3 Pro用於場景分析，以及第二遍的光流校正。Apache 2.0授權意味著允許商業使用，這很重要，因為Netflix通常對其內部工具採取保護性做法。40GB VRAM的要求將實際採用限制在A100級別硬體上，儘管教學建議T4/L4可能透過CPU卸載工作。

對開發者而言，這更多的是理解影片AI發展方向，而非立即部署。VOID表明有效的影片編輯AI需要多模型編排和物理推理，而不僅僅是更好的修復技術。開源發布為建構者提供了生產級影片操作工作流程的參考實作，即使計算要求使大多數獨立開發者今天無法企及。

Netflix VOID開源：具備物理感知的影片物件移除技術

更多新聞