Netflix a rendu open source VOID, un modèle de diffusion vidéo qui supprime des objets des vidéos tout en comprenant les interactions physiques que ces objets avaient avec la scène. Basé sur CogVideoX et affiné avec des données synthétiques de Kubric de Google et HUMOTO d'Adobe, VOID gère la causalité—si vous supprimez une personne qui tient une guitare, la guitare tombe naturellement au lieu de flotter dans les airs. Le système nécessite 40GB+ de VRAM et est livré avec deux checkpoints transformer qui peuvent fonctionner séparément ou ensemble pour une meilleure cohérence temporelle.
Ceci s'attaque à un vrai problème de production que les équipes VFX connaissent bien. Les modèles d'inpainting standard sont des peintres d'arrière-plan sophistiqués, mais ils ne raisonnent pas sur la physique. Supprimez un acteur d'une scène et vous vous retrouvez avec des accessoires flottants qui défient la gravité. Netflix fait face à ce problème à grande échelle dans leur pipeline de contenu, et VOID représente leur solution construite à partir de besoins de production réels plutôt que de curiosité académique.
Les détails d'implémentation révèlent la complexité d'ingénierie : VOID combine plusieurs systèmes AI incluant SAM2 de Meta pour la segmentation, Gemini 3 Pro pour l'analyse de scène, et des corrections de flux optique dans un deuxième passage. La licence Apache 2.0 signifie que l'usage commercial est autorisé, ce qui est significatif vu l'approche typiquement protectrice de Netflix envers leurs outils internes. L'exigence de 40GB de VRAM limite l'adoption pratique au matériel de classe A100, bien que le tutoriel suggère que T4/L4 pourrait fonctionner avec déchargement CPU.
Pour les développeurs, c'est moins une question de déploiement immédiat et plus de comprendre où va l'AI vidéo. VOID montre que l'AI d'édition vidéo efficace nécessite l'orchestration multi-modèles et le raisonnement physique, pas juste un meilleur inpainting. La publication open source donne aux créateurs une implémentation de référence pour les workflows de manipulation vidéo de qualité production, même si les exigences de calcul la rendent hors de portée pour la plupart des développeurs indépendants aujourd'hui.
