Los investigadores de Netflix liberaron VOID (Video Object and Interaction Deletion), un modelo de IA que remueve objetos de videos mientras mantiene realismo físico. Construido sobre CogVideoX y afinado con "quadmask conditioning", VOID va más allá del video inpainting estándar al entender causalidad—cuando remueves a una persona sosteniendo una guitarra, la guitarra cae naturalmente en lugar de flotar en el aire. El modelo superó a herramientas existentes incluyendo ProPainter, DiffuEraser y Runway en pruebas de video sintético y real.
Esto importa porque los flujos de trabajo actuales de edición de video chocan contra una pared brutal con la física. Los equipos VFX de Hollywood pasan semanas arreglando manualmente las interacciones después de remover objetos—asegurándose de que las sombras desaparezcan, las reflexiones se actualicen, y los objetos obedezcan la gravedad. VOID automatiza esto al razonar sobre dinámicas de escena en lugar de solo llenar píxeles. Es la diferencia entre pintura sofisticada de fondo y entender cómo funciona realmente el mundo cuando los objetos interactúan.
El enfoque técnico es directo pero inteligente: tomar un modelo probado de generación de video (CogVideoX-Fun-V1.5-5b-InP de Alibaba PAI) y enseñarle a pensar sobre relaciones físicas a través de mask conditioning especializado. El sistema "quadmask" ayuda al modelo a entender no solo qué remover, sino qué efectos secundarios deberían seguir. La decisión de Netflix de liberar esto como código abierto sugiere que están confiados en su ventaja y quieren acelerar la adopción a través de la industria.
Para los desarrolladores, esto señala que la edición de video consciente de la física está pasando de curiosidad de investigación a herramienta de producción. El modelo se basa en infraestructura existente (CogVideoX) en lugar de requerir arquitecturas completamente nuevas, haciendo la integración más factible. Esperen que las API de edición de video empiecen a incorporar remoción consciente de interacciones dentro del próximo año—la pregunta es si igualarán la calidad de Netflix o solo afirmarán entender física mientras siguen produciendo guitarras flotantes.
