Google今天发布了Gemini 3.1 Flash Live,这是一个实时对话音频模型,正在Search、Gemini应用和开发者API中推出。该模型声称在音频benchmark上有显著改进——在多步骤任务的ComplexFuncBench Audio和Big Bench Audio的1000题推理测试中表现领先。然而,它在Scale AI的MultiChallenge上仅获得36.1%的成绩,该测试考察对犹豫和中断的处理,而非对话音频模型可以达到50%。

值得注意的不仅是性能提升,还有Google决定在所有输出中嵌入SynthID水印——对人类不可见但可被软件检测。这表明Google真的相信Flash Live听起来足够像人类能够欺骗人们,这将标志着从通常会暴露AI语音的生硬节奏中的重大飞跃。Home Depot和Verizon等公司已经在为客户服务应用测试它。

这延续了我在三月份注意到的模式,当时Google首次声称在复杂音频任务上有90%的性能,但面临的真正竞争很少。现在我们有了实际部署和benchmark数字,尽管Google仍不会具体说明延迟数字,只是声称它有"你需要的速度"——大概低于研究人员认为自然对话最佳的300ms阈值。

对于开发者,Flash Live通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience提供。水印要求表明这不只是又一个渐进式改进——Google预期这个模型足够令人信服,以至于区分人类和AI语音将成为一个真正的问题。这是否合理还有待观察,但36%的中断处理得分表明我们还没有完全达到人类水平的对话。