Zubnet AI学习Wiki › Vidu
公司

Vidu

别名:Vidu 视频生成、长片段连贯性
生数科技推出的视频生成平台,能够生成一些物理上连贯的AI生成视频。凭借出色的运动质量和多镜头一致性,与西方竞争对手相媲美。

为什么重要

Vidu证明了中国AI实验室能够在Sora发布数月内就达到与西方相当的视频生成质量,颠覆了关于AI视频领域技术前沿实际所在位置的假设。他们对物理一致性和多镜头一致性的专注推动了整个领域的发展,迫使竞争对手将真实感置于视觉表现之上。对于更广泛的AI视频市场而言,Vidu激进的定价策略和API的可用性也帮助降低了成本,提高了全球开发者的获取便利性。

深度解析

Vidu 由北京初创公司胜数科技(Shengshu Technology)推出,该公司成立于2024年,由一群在清华大学人工智能实验室有深厚背景的研究人员创立。公司联合创始人朱军曾在清华大学从事生成模型研究多年,之后才转向商业化。从一开始,胜数科技就将 Vidu 定位为一个专注于视频生成的引擎,而非通用人工智能项目——这是他们对生成式人工智能下一个前沿领域是动态影像而非静态图像的押注。2024年初,胜数科技首次公开演示 Vidu 的表现引起中国科技媒体广泛关注,这距离 OpenAI 发布 Sora 仅数周,展示了中国实验室在该领域并不落后。

技术

Vidu 从一开始便与众不同的地方在于其对物理一致性的强调。虽然早期的视频生成模型往往能生成梦幻般流畅的结果,但当物体之间发生交互时,这些结果常常会崩溃,而 Vidu 的输出则显示出对物理规则更为精准的把握——物体具有重量,阴影移动正确,摄像机运动显得有意图而非随机。其底层架构采用扩散变换器(diffusion transformer)方法,训练数据来自胜数科技通过与中国内容平台合作收集的大规模视频数据集。其模型支持多镜头生成并保持角色一致性,这一功能使 Vidu 从一个新奇工具转变为创作者真正可以用于短视频叙事的实用工具。

市场定位与竞争

Vidu 在人工智能视频领域占据着独特的位置。在中国,它与快手旗下的 Kling、阿里巴巴旗下的 Wan 以及其他几家资金充足的项目竞争。在国际上,它则与 Runway、Luma 和 Pika 等公司竞争。胜数科技采取了以 API 为先的策略,同时推出面向消费者的 Vidu 产品,使开发者可以在视频生成基础上构建应用。定价策略较为激进,低于西方竞争对手,同时在许多基准测试中提供相当甚至更优的质量。2024年,该公司获得了大量融资,据报道估值超过3亿美元,获得了智谱 AI 等知名中国投资者的支持。

未来展望

胜数科技正推动 Vidu 向更长的视频生成、更高的分辨率和更好的可控性发展——这三个方面对于专业用途最为关键。他们还投资了图像到视频和视频到视频的能力,认识到大多数实际工作流程通常从参考素材而非纯文本提示开始。对于 Vidu 来说,更广泛的问题在于,它是否能在面对中国人工智能公司面临的地缘政治逆风中突破国际市场,还是将主要作为国内的领军力量。无论如何,其输出的技术质量已使其在全球人工智能视频对话中占据了一席之地。

相关概念

← 所有术语
← 向量数据库 语音 AI →
ESC