大多數影片生成模型將 DiT(Diffusion Transformer)架構擴展到 3D:不是處理 2D 影像塊,而是處理跨越空間維度和時間的 3D 塊。模型學習去噪整個影片體積,維持空間一致性(物體在各畫格中看起來相同)和時間一致性(運動平滑且物理上合理)。條件化的運作方式類似於影像:文字嵌入透過交叉注意力引導生成。
影片生成的計算量極大。30fps 的 10 秒影片是 300 個畫格——是單張影像工作量的 300 倍,再加上時間連貫性的額外挑戰。訓練影片模型需要影片資料集(比影像資料集更難策劃)和使 LLM 訓練看起來很普通的 GPU 叢集。這個計算需求就是為什麼影片生成品質落後於影像生成大約 2 年。
今天的模型在以下方面困難重重:長時間(大多數最多 5–15 秒)、複雜的多物體互動、違反物理的運動(物體有時會漂浮或變形)、跨鏡頭的一致角色身份,以及細粒度的文字控制。該技術對於過場畫面、建立鏡頭和創意探索令人印象深刻,但對於需要特定動作、表情和時機的敘事影視製作還不夠可靠。