Google的Gemini 3.1 Flash TTS添加音频标签用于表达性语音控制

Google发布了Gemini 3.1 Flash TTS，引入了细粒度音频标签，让开发者通过自然语言命令精确控制AI语音生成。该模型在Artificial Analysis的TTS排行榜上获得1,211的Elo评分，支持70多种语言的原生多说话人对话。所有生成的音频都包含SynthID水印以识别AI生成的内容，解决了对合成媒体滥用日益增长的担忧。

此次发布标志着Google在日益商品化的TTS领域寻求差异化的努力。当竞争对手专注于原始质量改进时，Google押注于可控性——让开发者无需复杂的参数调整即可精细调节声音风格、节奏和表达。音频标签方法反映了图像生成如何通过prompt工程演化，可能使表达性语音生成对构建语音应用的非技术用户也变得可及。

更广泛的Gemini 3.1生态系统揭示了Google分散的模型策略。文档显示Gemini 3.1 Flash-Lite作为成本效益的替代方案，具有扩展的"思考层次"用于推理控制，而主要的3.1 Pro则针对复杂的创意任务。这种三层方法——Lite用于容量、Flash用于速度、Pro用于复杂性——表明Google正在从OpenAI的定价失误中学习，但为选择模型的开发者创造了潜在的困惑。

对于开发者而言，直接的收益是在Google生态系统中的部署简单性——AI Studio用于原型设计、Vertex AI用于企业，以及直接集成到Google Vids中。然而，预览状态和Google停止AI产品的历史值得谨慎。SynthID水印虽然解决了伦理关切，但如果其他提供商提供无水印的替代方案，可能会成为竞争劣势。

Google的Gemini 3.1 Flash TTS添加音频标签用于表达性语音控制

更多新闻