Les chercheurs de Netflix ont publié VOID (Video Object and Interaction Deletion), un modèle d'IA qui supprime des objets des vidéos tout en maintenant un réalisme physique. Construit sur CogVideoX et affiné avec du « quadmask conditioning », VOID va au-delà du video inpainting standard en comprenant la causalité—quand vous enlevez une personne qui tient une guitare, la guitare tombe naturellement au lieu de flotter dans les airs. Le modèle a surpassé les outils existants incluant ProPainter, DiffuEraser et Runway sur des tests vidéo synthétiques et réels.
C'est important parce que les workflows d'édition vidéo actuels frappent un mur brutal avec la physique. Les équipes VFX d'Hollywood passent des semaines à corriger manuellement les interactions après suppression d'objets—s'assurer que les ombres disparaissent, les reflets se mettent à jour, et les objets obéissent à la gravité. VOID automatise ça en raisonnant sur les dynamiques de scène plutôt que de juste remplir des pixels. C'est la différence entre de la peinture de fond sophistiquée et comprendre comment le monde fonctionne vraiment quand les objets interagissent.
L'approche technique est directe mais intelligente : prendre un modèle de génération vidéo éprouvé (CogVideoX-Fun-V1.5-5b-InP d'Alibaba PAI) et lui apprendre à penser aux relations physiques à travers un mask conditioning spécialisé. Le système « quadmask » aide le modèle à comprendre non seulement quoi supprimer, mais quels effets secondaires devraient suivre. La décision de Netflix de rendre ça open-source suggère qu'ils sont confiants dans leur avance et veulent accélérer l'adoption à travers l'industrie.
Pour les développeurs, ça signale que l'édition vidéo consciente de la physique passe de curiosité de recherche à outil de production. Le modèle s'appuie sur l'infrastructure existante (CogVideoX) plutôt que de nécessiter des architectures entièrement nouvelles, rendant l'intégration plus faisable. Attendez-vous à ce que les API d'édition vidéo commencent à incorporer la suppression consciente des interactions dans la prochaine année—la question est si elles égaleront la qualité de Netflix ou prétendront juste comprendre la physique tout en produisant encore des guitares flottantes.
