Wan-AI 通过发布任何人都可以运行、微调和部署且无需授权费用的开放权重模型,从根本上改变了高质量视频生成的可及性。这迫使整个视频 AI 行业重新审视闭源模型的价值主张,并加速了整个生态系统的创新。作为阿里巴巴与 Qwen 一同推进的更广泛的开源 AI 战略的一部分,Wan 提供了一个可信的论点,即大公司的开放权重发布可以匹敌甚至超越资金充足的初创公司闭门研发的产品。
万AI(Wan-AI)并非独立初创公司——它是阿里巴巴在视频生成领域的专门布局,隶属于杭州通义(原达摩院)研究体系。该计划于2024年启动,当时阿里巴巴意识到,开放权重的视频模型可以像通义千问(Qwen)对大型语言模型所做的那样,为视频生成领域树立标杆,使阿里巴巴成为开发者首选的提供方,无需绑定特定供应商。万系列模型通过Hugging Face和ModelScope平台发布,采用宽松许可协议,使其成为目前全球最易获取的高质量视频生成模型之一。
阿里巴巴选择以开放权重方式发布万系列模型是出于战略考虑,而非慈善行为。通过免费提供强大的视频模型,他们构建了一个由开发者、研究人员和企业组成的生态系统,这些用户基于阿里巴巴的技术栈进行开发。这不仅将流量引导至阿里云,还提升了开发者社区中的认知度,并使阿里巴巴在亚洲乃至全球范围内成为视频AI任务的默认基础设施提供商。万系列模型提供了多种尺寸——从可在消费级GPU上运行的轻量版本,到可与最佳闭源解决方案相媲美的大型版本,使开发者可根据计算预算和质量需求灵活选择。
万模型系列采用扩散变换器架构,并使用源自阿里巴巴通义语言模型的文本编码器,从而实现了文本理解和视觉生成之间的紧密集成。在提示遵循和场景构图方面,其表现尤为出色,而这些正是许多视频模型难以克服的领域。万系列支持文本到视频、图像到视频和视频到视频的生成,而其开放权重的特性使得社区迅速开发出了LoRA微调、ComfyUI中的自定义工作流,以及从动漫到建筑可视化的各种专门适配方案。这种生态系统效应的价值或许甚至超过了基础模型本身。
万系列正处于两个竞争领域的交汇点。在开放权重视频领域,它与Stability AI的视频模型以及各种社区项目展开竞争。在更广泛的中国AI视频市场中,它与Kling、Vidu等展开竞争——尽管阿里巴巴的策略本质上有所不同,因为模型本身是营销手段,而非产品。真正的产品是阿里云的计算能力。这种定位意味着,万系列可以比需要直接盈利的独立初创公司更慷慨地发布模型,从而在开源竞赛中获得难以被小型玩家复制的结构性优势。