Google发布了Gemini 3.1 Flash Live,将其定位为他们在实时对话方面最高质量的音频模型。该模型在ComplexFuncBench Audio上获得90.8%的分数,这是一个测试多步函数调用的benchmark,在启用"thinking"模式时,在Scale AI的Audio MultiChallenge上获得36.1%的分数。该模型现在可通过Google AI Studio中的Gemini Live API供开发者使用,集成到Gemini Enterprise客户体验中,并通过Search Live和Gemini Live在200多个国家向消费者开放。

这次发布表明Google正在推动拥有语音AI基础设施层,而OpenAI则专注于ChatGPT的消费者功能。对"复杂任务执行"和企业集成的强调表明Google将语音代理视为下一个平台战场。包含音频水印显示他们从一开始就在考虑虚假信息风险——这是从文本生成争议中学到的教训。改进的"音调理解"和处理中断的能力解决了开发者在构建生产语音应用时面临的真正痛点。

缺乏竞争覆盖或第三方benchmark使得很难验证Google的性能声明。没有独立测试实验室验证了这些分数,Google自己的benchmark可能无法反映真实世界的性能。获得36.1%分数需要"thinking"模式表明基础模型在没有额外处理开销的情况下表现更差——这对延迟敏感的应用来说是一个重要细节。

对于构建语音代理的开发者来说,如果API定价有竞争力且延迟确实符合Google的声明,这可能会很重要。企业重点和200国部署表明了认真的基础设施投资,但在独立benchmark出现之前,在得到证明之前应将这些性能数字视为营销。