ByteDance 的新一代影片模型可一次生成30秒的 4K 影片, 無需拼接, 且聲音直接內建, Zubnet AI 新聞

ByteDance 在其 Force 大會上預覽了下一代 AI 影片模型 Seedance 2.5, 預計於7月初公開推出。最受矚目的能力是以 4K 解析度一次生成原生30秒的影片, 沒有任何拼接或延伸的技巧。對於一個多數模型仍只能一次生成幾秒鐘, 再把片段串接起來的領域而言, 一段連續的半分鐘鏡頭是一次實實在在的躍進。

單次生成的做法正是其重要性的核心。如今多數 AI 影片是由幾秒鐘的短片組合而成, 再加以延伸或拼接, 而這正是漂移, 接縫與連續性錯誤悄悄出現的地方。以 4K 原生生成完整的30秒鏡頭, 意味著模型必須在更長的時間跨度上維持整個場景的連貫, 而這恰恰是一直以來最困難的部分。

聲音則是另一項進展。Seedance 2.5 在同一個潛在空間中同時生成音訊與影片, 因此畫面動作與其音效是原生同步的, 而非事後配上去的。該模型還最多可接受50項多模態參考素材, 混合了影像, 影片與音訊, 比起 Seedance 2.0 提供了更為緊密的控制, 而 ByteDance 宣稱提示遵循度提升了約20%, 這在實務上意味著要取得可用的結果, 需要重新生成的次數更少。

還有一項工作流程功能, 暗示了 ByteDance 鎖定的對象是誰。一項新的3D 白盒預覽功能讓創作者在投入完整高品質算圖之前, 先快速生成一個低保真的3D 動畫鏡頭, 這是一種便宜地粗略安排鏡頭與運動, 待鏡頭確定後再投入大量算力的方式。這是一種製作流程的思維, 而非展示的花招。

誠實的提醒是, 這是一次預覽, 而非正式發布, 而這裡的每一個數字都是 ByteDance 自家的說法, 因此7月初推出後的獨立測試才是真正的衡量標準。原生 4K 與乾淨的30秒單次鏡頭, 正是那種在真實提示下往往會打折扣的亮眼規格。但其方向才是關鍵所在。內建同步聲音的單次長鏡頭片段, 正是把 AI 影片從亮眼的展示推向某人真的能剪進成品的素材的關鍵, 而若 Seedance 2.5 真能交付, 它將為每一個追趕它的影片模型抬高門檻。

ByteDance 的新一代影片模型可一次生成30秒的 4K 影片, 無需拼接, 且聲音直接內建

更多新聞