xAI 本周发布了 Grok Imagine Video 1.5,这是对其图生视频模型的更新,而它的头号特性不是视频,而是声音。该模型现在能在单个推理步骤中同步生成音频和视频,把音效、环境噪声以及带 lip-sync 的角色对白与画面一并产出,而不再作为之后另行拼接的一道工序。多数视频生成器至今仍只交给你一段无声片段,把配音留给你自己处理;一次性、一气呵成地同时完成两者,才是值得留意的地方。

另一个重点是物理表现。xAI 表示,1.5 能把一张静态图扩展成一个具备连贯运动和更真实物理行为的完整场景:流体动力学、升腾的蒸汽、玻璃这类半透明材质,以及当镜头在更长的序列中移动时对物体重量感更好的把握,同时减少那些通常会暴露 AI 视频破绽的扭曲和瑕疵。物理表现是视频生成中最难的部分,也是生成片段最常露馅之处,因此在运动一致性和材质真实感上明确发力,正是应该去追求的方向。

此次发布也倚重速度。一个名为 Grok Imagine Video 1.5 Fast 的变体把生成速度较上一版几乎翻了一倍,生成一段 720p 的六秒片段约需 25 秒,而此前需要 40 秒以上。完整的 1.5 模型通过 xAI 的 Imagine API 全面开放,Fast 版本则已在 grok.com/imagine 以及 iOS 和 Android 应用上线,从而同时触达消费者和开发者。

此次发布落入一个拥挤且变化迅速的赛道。图生视频和文生视频已成为生成式 AI 中竞争最激烈的战线之一,Kling、Runway、谷歌的 Genie 系列等都在时长、可控性和真实感上发力,而原生音频正迅速成为人人都得拥有的下一项。这一品类一贯的诚实提醒依然适用:一个模型自家的演示片和自报的速度数字并不是独立的基准测试,而音视频同步恰恰是那种在发布片段里看起来完美无瑕、却会在更难、更长或更古怪的提示词上露怯的特性。但方向已经足够清晰,而且这个模型已经可以试用,这是让其宣称接受现实检验的最快途径。