视频生成是生成式 AI 的前沿——最困难的模态,也是商业潜力最大的模态。它正在开始改变电影制作、广告、社交媒体和教育。AI 与专业视频之间的质量差距正在迅速缩小,当前模型能够生成 5–15 秒的片段,有时与真实素材难以区分。
大多数视频生成模型将 DiT(扩散 Transformer)架构扩展到 3D:它们不是处理 2D 图像 patch,而是处理跨越空间维度和时间的 3D patch。模型学习对整个视频体积进行去噪,保持空间一致性(物体在帧间看起来相同)和时间一致性(运动平滑且物理上合理)。条件化的工作方式类似于图像:文本嵌入通过交叉注意力引导生成。
视频生成的计算需求极其庞大。一个 30fps 的 10 秒视频是 300 帧——是单张图像工作量的 300 倍,再加上时间连贯性的额外挑战。训练视频模型需要视频数据集(比图像数据集更难策划)和规模使 LLM 训练相形见绌的 GPU 集群。这种计算需求就是为什么视频生成质量大约落后图像生成 2 年的原因。
当前模型在以下方面存在困难:长时间(大多数最多 5–15 秒)、复杂的多物体交互、违反物理的运动(物体有时会漂浮或变形)、跨镜头一致的角色身份,以及精细的文本控制。该技术对于 B-roll 镜头、建立镜头和创意探索来说令人印象深刻,但尚未足够可靠地用于叙事电影制作——在那里特定的动作、表情和时机都很重要。