Wan-AI 不是一間獨立的初創公司 — 它是阿里巴巴專注於視頻生成的推進項目,隸屬於杭州通義(原達摩院)的研究部門。該計劃於2024年啟動,因為阿里巴巴意識到開放權重的視頻模型可以像 Qwen 對於大語言模型所做的那樣,為視頻生成帶來突破:讓阿里巴巴成為開發者在不被廠商綁定的情況下,獲得最先進功能的首選提供商。Wan 模型透過 Hugging Face 和 ModelScope 發布,並採用寬鬆的許可證,立即使其成為目前最易於使用的高品質視頻生成模型之一。
阿里巴巴決定以開放權重方式釋出 Wan 是出於戰略考量,而非慈善行為。透過讓強大的視頻模型免費使用,他們建立了一個由開發者、研究人員和企業構成的生態系統,這些人基於阿里巴巴的技術堆疊進行開發。這有助於將流量導向阿里巴巴雲,提高開發者社群中的知名度,並讓阿里巴巴成為亞洲乃至全球視頻 AI 工作負載的預設基礎設施提供商。Wan 模型提供了多種尺寸 — 從可在消費者級 GPU 上運行的輕量級版本,到能與最佳封閉源碼方案競爭的大型版本 — 讓開發者能根據自己的計算預算和品質需求進行選擇。
Wan 模型系列採用擴散變壓器架構,並使用源自阿里巴巴 Qwen 語言模型的文本編碼器,實現文字理解與視覺生成之間的緊密整合。其成果在提示遵循和場景組合方面尤其出色,這正是許多視頻模型所面臨的挑戰。Wan 支持文字到視頻、圖片到視頻以及視頻到視頻的生成,而開放權重的特性使社群迅速開發出 LoRA 微調、ComfyUI 中的自定義工作流程,以及從動畫到建築可視化的各種專門適配。這種生態系統效應或許比基底模型本身更具價值。
Wan 处於兩個競爭戰場的交界點。在開放權重的視頻領域,它與 Stability AI 的視頻模型以及各種社群努力競爭。在更廣泛的中國 AI 視頻市場中,它與 Kling、Vidu 等競爭 — 雖然阿里巴巴的策略本質上不同,因為模型是行銷工具,而非產品本身。真正的產品是阿里巴巴雲的計算能力。這種定位意味著 Wan 可以比那些需要直接透過模型獲利的獨立初創公司更慷慨地釋出模型,使其在開放源碼競賽中擁有結構性優勢,這對小型玩家來說很難匹敵。