A maioria dos modelos de geração de vídeo estende a arquitetura DiT (Diffusion Transformer) para 3D: em vez de processar patches 2D de imagem, processam patches 3D que abrangem ambas as dimensões espaciais e o tempo. O modelo aprende a fazer denoising de volumes inteiros de vídeo, mantendo consistência espacial (objetos parecem iguais entre quadros) e consistência temporal (movimento é suave e fisicamente plausível). O condicionamento funciona de forma similar a imagens: embeddings de texto guiam a geração via atenção cruzada.
A geração de vídeo é extraordinariamente intensiva em computação. Um vídeo de 10 segundos a 30fps são 300 quadros — 300x o trabalho de uma única imagem, mais o desafio adicional de coerência temporal. Treinar modelos de vídeo requer datasets de vídeo (mais difíceis de curar que datasets de imagens) e clusters de GPU que fazem o treinamento de LLM parecer modesto. Esse requisito computacional é o motivo pelo qual a qualidade de geração de vídeo fica atrás da geração de imagem por aproximadamente 2 anos.
Os modelos atuais têm dificuldade com: durações longas (a maioria limita-se a 5–15 segundos), interações complexas entre múltiplos objetos, movimento que desafia a física (objetos às vezes flutuam ou se deformam), identidade consistente de personagem entre cortes, e controle textual de granularidade fina. A tecnologia é impressionante para b-roll, planos de estabelecimento e exploração criativa, mas ainda não é confiável o suficiente para cinema narrativo onde ações, expressões e timing específicos importam.