Google推出了Gemini 3.1 Flash TTS,帶有「音訊標籤」功能,讓開發者透過嵌入在文字中的自然語言指令來控制聲音風格、節奏和表達方式。該模型支援70多種語言,包含SynthID浮水印,在Artificial Analysis TTS排行榜上獲得1,211分。目前正透過Gemini API、Google AI Studio、Vertex AI和Google Vids進行預覽發布。
這次TTS發布感覺是漸進式的——音訊標籤本質上是語音合成的prompt engineering,並非根本性突破。更有趣的是這如何融入Google更廣泛的Gemini 3策略。當他們為TTS等專業模型增加功能時,真正的重點在Flash Lite——他們最便宜、最快的通用模型,正在重塑大批量AI經濟學。Google明顯在分層:Pro提供高階推理,Flash提供均衡效能,現在Flash Lite提供最低價格。
Google的公告掩蓋了定價複雜性的增長。正如其他消息來源指出的,Gemini現在有五個模型橫跨三個服務層級,還有prompt大小門檻——數十種價格組合讓成本估算變成了惡夢。TTS的「最具吸引力象限」定位聽起來不錯,但開發者光是計算帳單就需要用計算機。同時,Flash Lite在1000萬+月度呼叫的結構性成本優勢表明Google正在押注量而非利潤率。
對開發者來說,TTS標籤有用但不是革命性的——你仍在調整prompt,只是語法不同。更大的機會是將Flash Lite用於不需要深度推理的高吞吐量工作負載。但要仔細預算:Google的多維定價意味著你的成本可能會根據你可能無法預料的使用模式大幅波動。
