ByteDance 的新一代视频模型可以一次性生成时长30秒的 4K 片段, 无需拼接, 并且自带声音, Zubnet AI 新闻

ByteDance 在其 Force 大会上预览了下一代 AI 视频模型 Seedance 2.5, 预计将于7月初公开发布。其核心能力是一次性以 4K 分辨率原生生成时长30秒的单个片段, 无需任何拼接或延展技巧。对于一个大多数模型仍然每次只能生成几秒钟再把片段拼接起来的领域来说, 一段连续的半分钟镜头是一次真正的飞跃。

这种一次性生成的方式正是它意义所在的核心。如今大多数 AI 视频都是由几秒钟的短片段搭建而成, 这些片段经过延展或拼接, 而漂移, 接缝和连贯性错误正是在这里悄然出现的。原生地以 4K 生成完整的30秒镜头, 意味着模型能在长得多的跨度内把一个场景维持住, 而这恰恰是一直以来最难做到的部分。

声音是另一项进步。Seedance 2.5 在同一潜在空间中联合生成音频和视频, 因此画面动作及其音效是原生同步的, 而非事后配音。该模型还最多可接受50项多模态参考素材, 即图像, 视频和音频的组合, 比起 Seedance 2.0 提供了远为精细的控制, 而且 ByteDance 号称提示词遵循度提升了约20%, 这在实践中意味着为得到一个可用结果所需的重新生成次数更少。

还有一项工作流功能, 暗示了 ByteDance 把它瞄准了谁。一项全新的三维白模预览功能让创作者在投入完整的高质量渲染之前, 先快速生成一个镜头的低保真三维动画, 用一种廉价的方式粗略地搭出镜头与运动, 等镜头对了再投入繁重的算力。这是一个生产管线层面的思路, 而不是演示噱头。

实话实说的提醒是, 这是一次预览而非正式发布, 这里的每个数字都是 ByteDance 自己的说法, 因此等它在7月初推出后的独立测试才是真正的衡量标准。原生 4K 和干净利落的30秒单镜头, 正是那类在真实提示词下容易打折扣的亮眼规格。但方向才是关键所在。自带同步声音的单次长片段, 正是把 AI 视频从惊艳的演示推向某人真能剪进成片的素材的东西, 如果 Seedance 2.5 兑现了承诺, 它会抬高每一个追赶它的视频模型的门槛。

ByteDance 的新一代视频模型可以一次性生成时长30秒的 4K 片段, 无需拼接, 并且自带声音

更多新闻