xAI 本週發布了 Grok Imagine Video 1.5,這是其影像轉影片模型的更新版本,而最受矚目的功能並不是影片,而是聲音。這個模型如今能在單一推論步驟中同步生成音訊與影片,與畫面一同產出音效、環境噪音以及帶有 lip-sync 的角色對白,而非事後才硬加上去的獨立流程。多數影片生成工具仍只交給你一段無聲的片段,把音訊留給你自己處理;在一次運算中同時搞定兩者,正是值得留意的地方。
另一個重點是物理表現。xAI 表示 1.5 能將單張靜態影像擴展成一個動態連貫且物理行為更逼真的完整場景:流體動力學、上升的蒸氣、玻璃等半透明材質,以及當鏡頭穿越較長序列時更具說服力的物體重量感,且更少出現那些通常會洩漏 AI 影片破綻的扭曲與瑕疵。物理表現是影片生成最困難的部分,也是生成片段最常露出馬腳的地方,因此明確地在動態一致性與材質擬真度上發力,正是該追求的方向。
這次發布同樣主打速度。一個名為 Grok Imagine Video 1.5 Fast 的版本,將生成速度較前一版提升了近一倍,能在約 25 秒內產出一段 720p 的六秒片段,較先前的 40 秒以上大幅縮短。完整的 1.5 模型已透過 xAI 的 Imagine API 全面開放,而 Fast 版本則已在 grok.com/imagine 以及 iOS 和 Android 應用程式上線,讓它同時呈現在消費者與開發者面前。
這次發布落在一個競爭激烈且變化快速的領域。影像轉影片與文字轉影片已成為生成式 AI 中爭奪最激烈的戰線之一,Kling、Runway、Google 的 Genie 系列以及其他業者全都在影片長度、控制力與擬真度上發力,而原生音訊正迅速成為人人都得擁有的下一項功能。誠實的提醒則是這個類別一向的老問題:一個模型自家的展示片段與自行回報的速度數字並非獨立的基準測試,而影音同步正是那種在發表片段中看似完美無瑕,卻在較棘手、較長或較奇特的提示下露出破綻的功能。但方向已經夠清楚了,而且這個模型現已開放試用,這正是讓宣稱與現實對接最快的方式。
