अधिकांश video generation models DiT (Diffusion Transformer) architecture को 3D तक extend करते हैं: 2D image patches process करने के बजाय, वे 3D patches process करते हैं जो spatial dimensions और time दोनों में span करते हैं। Model पूरे video volumes को denoise करना सीखता है, spatial consistency (objects सभी frames में समान दिखते हैं) और temporal consistency (motion smooth और physically plausible है) बनाए रखता है। Conditioning images की तरह काम करता है: text embeddings cross-attention के माध्यम से generation को guide करती हैं।
Video generation extraordinarily compute-intensive है। 30fps पर 10-second video 300 frames है — एक image के 300x काम, साथ ही temporal coherence की अतिरिक्त चुनौती। Video models को प्रशिक्षित करने के लिए video datasets (image datasets से curate करना कठिन) और GPU clusters चाहिए जो LLM training को modest बना दें। यह compute requirement ही कारण है कि video generation quality image generation से लगभग 2 साल पीछे है।
आज के models संघर्ष करते हैं: लंबी अवधि (अधिकांश 5–15 seconds पर max out), complex multi-object interactions, physics-defying motion (objects कभी-कभी float या deform होते हैं), cuts में consistent character identity, और fine-grained text control के साथ। Technology b-roll, establishing shots, और creative exploration के लिए impressive है, लेकिन narrative filmmaking के लिए अभी तक reliable नहीं जहां specific actions, expressions, और timing मायने रखती है।