Pesquisadores da Netflix lançaram VOID (Video Object and Interaction Deletion), um modelo de IA que remove objetos de vídeos mantendo realismo físico. Construído sobre CogVideoX e ajustado com "quadmask conditioning", VOID vai além do video inpainting padrão ao entender causalidade—quando você remove uma pessoa segurando uma guitarra, a guitarra cai naturalmente em vez de flutuar no ar. O modelo superou ferramentas existentes incluindo ProPainter, DiffuEraser e Runway em testes de vídeo sintético e real.

Isso importa porque workflows atuais de edição de vídeo batem numa parede brutal com a física. Equipes VFX de Hollywood passam semanas corrigindo manualmente interações após remoção de objetos—garantindo que sombras desapareçam, reflexos se atualizem, e objetos obedeçam a gravidade. VOID automatiza isso raciocinando sobre dinâmicas de cena em vez de apenas preencher pixels. É a diferença entre pintura sofisticada de fundo e entender como o mundo realmente funciona quando objetos interagem.

A abordagem técnica é direta mas inteligente: pegar um modelo comprovado de geração de vídeo (CogVideoX-Fun-V1.5-5b-InP da Alibaba PAI) e ensiná-lo a pensar sobre relacionamentos físicos através de mask conditioning especializado. O sistema "quadmask" ajuda o modelo a entender não apenas o que remover, mas quais efeitos secundários devem seguir. A decisão da Netflix de tornar isso open-source sugere que estão confiantes na sua vantagem e querem acelerar a adoção pela indústria.

Para desenvolvedores, isso sinaliza que edição de vídeo consciente de física está passando de curiosidade de pesquisa para ferramenta de produção. O modelo se baseia em infraestrutura existente (CogVideoX) em vez de exigir arquiteturas totalmente novas, tornando a integração mais viável. Esperem que API de edição de vídeo comecem a incorporar remoção consciente de interações no próximo ano—a questão é se vão igualar a qualidade da Netflix ou apenas afirmar entender física enquanto ainda produzem guitarras flutuantes.