Netflix研究人員發佈了VOID(Video Object and Interaction Deletion),這是一個能從影片中移除物體同時保持物理真實感的AI模型。該模型基於CogVideoX建構,透過「quadmask conditioning」進行微調,VOID超越了標準的影片修復技術,它能理解因果關係——當你移除一個拿著吉他的人時,吉他會自然下落而不是懸浮在空中。該模型在合成和真實影片測試中都超越了包括ProPainter、DiffuEraser和Runway在內的現有工具。
這很重要,因為當前的影片編輯工作流程在處理物理效果時遇到了嚴重瓶頸。好萊塢VFX團隊需要花費數週時間手動修復物體移除後的互動效果——確保陰影消失、反射更新、物體遵循重力。VOID透過推理場景動力學而非僅僅填充像素來自動化這一過程。這就像精密背景繪畫與真正理解物體互動時世界如何運作之間的區別。
技術方法直接但巧妙:採用經過驗證的影片生成模型(來自Alibaba PAI的CogVideoX-Fun-V1.5-5b-InP),並透過專門的mask conditioning教會它思考物理關係。「quadmask」系統幫助模型理解不僅要移除什麼,還要理解應該產生什麼次級效果。Netflix決定開源這項技術表明他們對自己的領先地位很有信心,並希望加速整個行業的採用。
對於開發者來說,這標誌著物理感知影片編輯正在從研究好奇轉向生產工具。該模型基於現有基礎設施(CogVideoX)而非需要全新架構,使整合更加可行。預計影片編輯API將在明年開始融入互動感知移除功能——問題是它們能否達到Netflix的品質,還是只是聲稱理解物理效果卻仍然產生懸浮的吉他。
