Google发布了Gemini 3.1 Flash TTS,引入了细粒度音频标签,让开发者通过自然语言命令精确控制AI语音生成。该模型在Artificial Analysis的TTS排行榜上获得1,211的Elo评分,支持70多种语言的原生多说话人对话。所有生成的音频都包含SynthID水印以识别AI生成的内容,解决了对合成媒体滥用日益增长的担忧。
此次发布标志着Google在日益商品化的TTS领域寻求差异化的努力。当竞争对手专注于原始质量改进时,Google押注于可控性——让开发者无需复杂的参数调整即可精细调节声音风格、节奏和表达。音频标签方法反映了图像生成如何通过prompt工程演化,可能使表达性语音生成对构建语音应用的非技术用户也变得可及。
更广泛的Gemini 3.1生态系统揭示了Google分散的模型策略。文档显示Gemini 3.1 Flash-Lite作为成本效益的替代方案,具有扩展的"思考层次"用于推理控制,而主要的3.1 Pro则针对复杂的创意任务。这种三层方法——Lite用于容量、Flash用于速度、Pro用于复杂性——表明Google正在从OpenAI的定价失误中学习,但为选择模型的开发者创造了潜在的困惑。
对于开发者而言,直接的收益是在Google生态系统中的部署简单性——AI Studio用于原型设计、Vertex AI用于企业,以及直接集成到Google Vids中。然而,预览状态和Google停止AI产品的历史值得谨慎。SynthID水印虽然解决了伦理关切,但如果其他提供商提供无水印的替代方案,可能会成为竞争劣势。
