Zubnet AI學習Wiki › 影片生成
基礎

影片生成

文字到影片、AI 影片
使用 AI 模型從文字描述、影像或其他影片建立影片。Sora(OpenAI)、Kling(快手)、Runway Gen-3、Vidu 等可以從「無人機飛越珊瑚礁的航拍」等提示生成影片。該技術將影像生成擴展到時間維度,增加了在畫格之間維持一致性和生成逼真運動的挑戰。

為什麼重要

影片生成是生成式 AI 的前沿——最困難的模態,也是商業潛力最大的模態。它正在開始改變影視製作、廣告、社群媒體和教育。AI 與專業影片之間的品質差距正在迅速縮小,目前的模型產生的 5–15 秒片段有時與真實影片無法區分。

深度解析

大多數影片生成模型將 DiT(Diffusion Transformer)架構擴展到 3D:不是處理 2D 影像塊,而是處理跨越空間維度和時間的 3D 塊。模型學習去噪整個影片體積,維持空間一致性(物體在各畫格中看起來相同)和時間一致性(運動平滑且物理上合理)。條件化的運作方式類似於影像:文字嵌入透過交叉注意力引導生成。

計算挑戰

影片生成的計算量極大。30fps 的 10 秒影片是 300 個畫格——是單張影像工作量的 300 倍,再加上時間連貫性的額外挑戰。訓練影片模型需要影片資料集(比影像資料集更難策劃)和使 LLM 訓練看起來很普通的 GPU 叢集。這個計算需求就是為什麼影片生成品質落後於影像生成大約 2 年。

目前的限制

今天的模型在以下方面困難重重:長時間(大多數最多 5–15 秒)、複雜的多物體互動、違反物理的運動(物體有時會漂浮或變形)、跨鏡頭的一致角色身份,以及細粒度的文字控制。該技術對於過場畫面、建立鏡頭和創意探索令人印象深刻,但對於需要特定動作、表情和時機的敘事影視製作還不夠可靠。

相關概念

← 所有術語
← 影像生成 微調 →