Zubnet AI学习Wiki › 视频生成
基础

视频生成

别名:文本到视频、AI 视频
使用 AI 模型从文本描述、图像或其他视频创建视频。Sora(OpenAI)、可灵(快手)、Runway Gen-3、Vidu 等可以从“无人机拍摄的珊瑚礁上空飞行”等提示生成视频。该技术将图像生成扩展到时间维度,增加了在帧间保持一致性和生成真实运动的挑战。

为什么重要

视频生成是生成式 AI 的前沿——最困难的模态,也是商业潜力最大的模态。它正在开始改变电影制作、广告、社交媒体和教育。AI 与专业视频之间的质量差距正在迅速缩小,当前模型能够生成 5–15 秒的片段,有时与真实素材难以区分。

深度解析

大多数视频生成模型将 DiT(扩散 Transformer)架构扩展到 3D:它们不是处理 2D 图像 patch,而是处理跨越空间维度和时间的 3D patch。模型学习对整个视频体积进行去噪,保持空间一致性(物体在帧间看起来相同)和时间一致性(运动平滑且物理上合理)。条件化的工作方式类似于图像:文本嵌入通过交叉注意力引导生成。

计算挑战

视频生成的计算需求极其庞大。一个 30fps 的 10 秒视频是 300 帧——是单张图像工作量的 300 倍,再加上时间连贯性的额外挑战。训练视频模型需要视频数据集(比图像数据集更难策划)和规模使 LLM 训练相形见绌的 GPU 集群。这种计算需求就是为什么视频生成质量大约落后图像生成 2 年的原因。

当前局限性

当前模型在以下方面存在困难:长时间(大多数最多 5–15 秒)、复杂的多物体交互、违反物理的运动(物体有时会漂浮或变形)、跨镜头一致的角色身份,以及精细的文本控制。该技术对于 B-roll 镜头、建立镜头和创意探索来说令人印象深刻,但尚未足够可靠地用于叙事电影制作——在那里特定的动作、表情和时机都很重要。

相关概念

← 所有术语
← 视觉 计算机视觉 →
ESC