Vidu 展示了中國人工智慧實驗室在 Sora 發佈後數個月內即可達到西方視頻生成品質,重塑了人們對 AI 視頻技術前沿實際存在於何處的假設。他們對物理一致性和多鏡頭一致性的專注推動了整個領域的發展,迫使競爭對手優先考慮寫實性而非視覺效果。對於更廣泛的 AI 視頻市場而言,Vidu 的積極定價策略與 API 可用性也幫助降低了開發成本,並提高了全球開發人員的使用門檻。
Vidu源自北京的創業公司昇叔科技,該公司於2024年由一群在清華大學人工智慧實驗室有深厚根基的研究人員創立。公司共同創始人朱君曾在清華大學多年專注於生成模型的研究,後轉向商業化。從一開始,昇叔便將Vidu定位為專注的視頻生成引擎,而非一般用途的人工智慧產品——這是一項押注生成式人工智慧下一階段將聚焦於動態影像而非靜態圖片的戰略。2024年初他們的首次公開示範引起中國科技媒體關注,僅在OpenAI發表Sora後數週便展現出中國實驗室在該領域並未落後。
從第一天起,Vidu便以強調物理一致性為特色。雖然許多早期的視頻生成模型產生出夢幻般的流暢結果,但當物件彼此互動時卻會崩潰,Vidu的輸出則顯著地更掌握物理規律——物件有重量、陰影移動正確,鏡頭運動感覺是有意圖而非隨機。其底層架構採用擴散變換器(diffusion transformer)方法,訓練資料來自昇叔透過與中國內容平台合作所組建的大規模視頻資料集。其模型支援多鏡頭生成並保持角色一致性,這項功能使Vidu從新奇工具轉向創作者實際可用於短篇敘事的工具。
Vidu在人工智慧視頻領域佔據有趣的位置。在中國,它與快手的Kling、阿里巴巴的Wan以及其他幾個資金充足的團隊競爭。國際上,它則與Runway、Luma和Pika等對抗。昇叔採用以API為先的策略,同時推出消費者產品,使Vidu對開發者開放,讓他們能基於視頻生成進行開發。定價策略積極,以更具競爭力的價格壓低西方對手,同時在許多基準測試中提供可比或更優的品質。公司在2024年籌集了大量資金,據報導估值超過3億美元,獲得智譜AI及其他知名中國投資人支持。
昇叔正推動Vidu朝向更長的生成形式、更高解析度和更好的可控性發展——這三項對於專業用途最重要的軸線。他們也投資於圖片到視頻和視頻到視頻的功能,認知到大多數實際工作流程通常從參考素材開始,而非僅依賴文字提示。Vidu更廣泛的問題在於,儘管中國人工智慧公司面臨地緣政治風暴,它是否能突破國際市場,或僅會成為主要的本土強權。無論如何,他們輸出的技術品質已使其在全球人工智慧視頻對話中佔有一席之地。