Google的Gemini Flash Live听起来太像人类，需要加水印

Google今天发布了Gemini 3.1 Flash Live，这是一个实时对话音频模型，正在Search、Gemini应用和开发者API中推出。该模型声称在音频benchmark上有显著改进——在多步骤任务的ComplexFuncBench Audio和Big Bench Audio的1000题推理测试中表现领先。然而，它在Scale AI的MultiChallenge上仅获得36.1%的成绩，该测试考察对犹豫和中断的处理，而非对话音频模型可以达到50%。

值得注意的不仅是性能提升，还有Google决定在所有输出中嵌入SynthID水印——对人类不可见但可被软件检测。这表明Google真的相信Flash Live听起来足够像人类能够欺骗人们，这将标志着从通常会暴露AI语音的生硬节奏中的重大飞跃。Home Depot和Verizon等公司已经在为客户服务应用测试它。

这延续了我在三月份注意到的模式，当时Google首次声称在复杂音频任务上有90%的性能，但面临的真正竞争很少。现在我们有了实际部署和benchmark数字，尽管Google仍不会具体说明延迟数字，只是声称它有"你需要的速度"——大概低于研究人员认为自然对话最佳的300ms阈值。

对于开发者，Flash Live通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience提供。水印要求表明这不只是又一个渐进式改进——Google预期这个模型足够令人信服，以至于区分人类和AI语音将成为一个真正的问题。这是否合理还有待观察，但36%的中断处理得分表明我们还没有完全达到人类水平的对话。

Google的Gemini Flash Live听起来太像人类，需要加水印

更多新闻