视频生成：定义与含义 — AI 维基

使用 AI 模型从文本描述、图像或其他视频创建视频。Sora（OpenAI）、可灵（快手）、Runway Gen-3、Vidu 等可以从“无人机拍摄的珊瑚礁上空飞行”等提示生成视频。该技术将图像生成扩展到时间维度，增加了在帧间保持一致性和生成真实运动的挑战。

为什么重要

视频生成是生成式 AI 的前沿——最困难的模态，也是商业潜力最大的模态。它正在开始改变电影制作、广告、社交媒体和教育。AI 与专业视频之间的质量差距正在迅速缩小，当前模型能够生成 5–15 秒的片段，有时与真实素材难以区分。

深度解析

大多数视频生成模型将 DiT（扩散 Transformer）架构扩展到 3D：它们不是处理 2D 图像 patch，而是处理跨越空间维度和时间的 3D patch。模型学习对整个视频体积进行去噪，保持空间一致性（物体在帧间看起来相同）和时间一致性（运动平滑且物理上合理）。条件化的工作方式类似于图像：文本嵌入通过交叉注意力引导生成。

计算挑战

视频生成的计算需求极其庞大。一个 30fps 的 10 秒视频是 300 帧——是单张图像工作量的 300 倍，再加上时间连贯性的额外挑战。训练视频模型需要视频数据集（比图像数据集更难策划）和规模使 LLM 训练相形见绌的 GPU 集群。这种计算需求就是为什么视频生成质量大约落后图像生成 2 年的原因。

当前局限性

当前模型在以下方面存在困难：长时间（大多数最多 5–15 秒）、复杂的多物体交互、违反物理的运动（物体有时会漂浮或变形）、跨镜头一致的角色身份，以及精细的文本控制。该技术对于 B-roll 镜头、建立镜头和创意探索来说令人印象深刻，但尚未足够可靠地用于叙事电影制作——在那里特定的动作、表情和时机都很重要。

视频生成

为什么重要

深度解析

计算挑战

当前局限性

相关概念