Google推出了Gemini 3.1 Flash TTS,带有"音频标签"功能,让开发者通过嵌入在文本中的自然语言命令来控制声音风格、节奏和表达。该模型支持70多种语言,包含SynthID水印,在Artificial Analysis TTS排行榜上得分1,211。目前正通过Gemini API、Google AI Studio、Vertex AI和Google Vids进行预览发布。

这次TTS发布感觉是渐进式的——音频标签本质上是语音合成的prompt engineering,不是根本性突破。更有趣的是这如何融入Google更广泛的Gemini 3战略。当他们为TTS等专业模型增加功能时,真正的重点在Flash Lite——他们最便宜、最快的通用模型,正在重塑大批量AI经济学。Google显然在分层:Pro提供高端推理,Flash提供平衡性能,现在Flash Lite提供最低价格。

Google的公告掩盖了定价复杂性的增长。正如其他消息源指出的,Gemini现在有五个模型跨越三个服务层级,还有prompt大小阈值——数十种价格组合让成本估算变成了噩梦。TTS的"最具吸引力象限"定位听起来不错,但开发者仅仅计算账单就需要用计算器。与此同时,Flash Lite在1000万+月度调用的结构性成本优势表明Google正在押注量而非利润率。

对开发者来说,TTS标签有用但不是革命性的——你仍在调整prompt,只是语法不同。更大的机会是将Flash Lite用于不需要深度推理的高吞吐量工作负载。但要仔细预算:Google的多维定价意味着你的成本可能会根据你可能无法预料的使用模式大幅波动。