影片生成：定義與含義 — AI 維基

使用 AI 模型從文字描述、影像或其他影片建立影片。Sora（OpenAI）、Kling（快手）、Runway Gen-3、Vidu 等可以從「無人機飛越珊瑚礁的航拍」等提示生成影片。該技術將影像生成擴展到時間維度，增加了在畫格之間維持一致性和生成逼真運動的挑戰。

為什麼重要

影片生成是生成式 AI 的前沿——最困難的模態，也是商業潛力最大的模態。它正在開始改變影視製作、廣告、社群媒體和教育。AI 與專業影片之間的品質差距正在迅速縮小，目前的模型產生的 5–15 秒片段有時與真實影片無法區分。

深度解析

大多數影片生成模型將 DiT（Diffusion Transformer）架構擴展到 3D：不是處理 2D 影像塊，而是處理跨越空間維度和時間的 3D 塊。模型學習去噪整個影片體積，維持空間一致性（物體在各畫格中看起來相同）和時間一致性（運動平滑且物理上合理）。條件化的運作方式類似於影像：文字嵌入透過交叉注意力引導生成。

計算挑戰

影片生成的計算量極大。30fps 的 10 秒影片是 300 個畫格——是單張影像工作量的 300 倍，再加上時間連貫性的額外挑戰。訓練影片模型需要影片資料集（比影像資料集更難策劃）和使 LLM 訓練看起來很普通的 GPU 叢集。這個計算需求就是為什麼影片生成品質落後於影像生成大約 2 年。

目前的限制

今天的模型在以下方面困難重重：長時間（大多數最多 5–15 秒）、複雜的多物體互動、違反物理的運動（物體有時會漂浮或變形）、跨鏡頭的一致角色身份，以及細粒度的文字控制。該技術對於過場畫面、建立鏡頭和創意探索令人印象深刻，但對於需要特定動作、表情和時機的敘事影視製作還不夠可靠。

影片生成

為什麼重要

深度解析

計算挑戰

目前的限制

相關概念