Netflix liberó como open source VOID, un modelo de difusión de video que elimina objetos de videos mientras entiende las interacciones físicas que esos objetos tenían con la escena. Construido sobre CogVideoX y ajustado con datos sintéticos de Kubric de Google y HUMOTO de Adobe, VOID maneja la causalidad—si eliminas a una persona sosteniendo una guitarra, la guitarra cae naturalmente en lugar de flotar en el aire. El sistema requiere 40GB+ de VRAM y viene con dos checkpoints transformer que pueden ejecutarse por separado o juntos para mejor consistencia temporal.
Esto aborda un punto de dolor real de producción que los equipos de VFX conocen bien. Los modelos estándar de inpainting son pintores sofisticados de fondos, pero no razonan sobre física. Elimina un actor de una escena y te quedas con utilería flotante que desafía la gravedad. Netflix ha estado lidiando con este problema a escala en su pipeline de contenido, y VOID representa su solución construida desde necesidades reales de producción en lugar de curiosidad académica.
Los detalles de implementación revelan la complejidad de ingeniería: VOID combina múltiples sistemas de AI incluyendo SAM2 de Meta para segmentación, Gemini 3 Pro para análisis de escena, y correcciones de flujo óptico en una segunda pasada. La licencia Apache 2.0 significa que el uso comercial está permitido, lo cual es significativo dado el enfoque típicamente protector de Netflix hacia sus herramientas internas. El requerimiento de 40GB de VRAM limita la adopción práctica a hardware clase A100, aunque el tutorial sugiere que T4/L4 podrían funcionar con descarga a CPU.
Para desarrolladores, esto es menos sobre despliegue inmediato y más sobre entender hacia dónde se dirige la AI de video. VOID muestra que la AI efectiva de edición de video requiere orquestación multi-modelo y razonamiento físico, no solo mejor inpainting. El lanzamiento open source da a los constructores una implementación de referencia para flujos de trabajo de manipulación de video de grado producción, incluso si los requerimientos de cómputo la ponen fuera del alcance de la mayoría de desarrolladores independientes hoy.
