Google發布了Gemini 3.1 Flash TTS,導入了細粒度音訊標籤,讓開發者透過自然語言指令精確控制AI語音生成。該模型在Artificial Analysis的TTS排行榜上達到1,211的Elo評分,支援70多種語言的原生多說話者對話。所有生成的音訊都包含SynthID浮水印以識別AI生成的內容,解決對合成媒體濫用日益增長的擔憂。
此次發布標誌著Google在日益商品化的TTS領域尋求差異化的努力。當競爭對手專注於原始品質改進時,Google賭注於可控性——讓開發者無需複雜的參數調整即可精細調節聲音風格、節奏和表達。音訊標籤方法反映了圖像生成如何透過prompt工程演化,可能使表達性語音生成對建構語音應用程式的非技術使用者也變得可及。
更廣泛的Gemini 3.1生態系統揭示了Google分散的模型策略。文件顯示Gemini 3.1 Flash-Lite作為成本效益的替代方案,具有擴展的「思考層次」用於推理控制,而主要的3.1 Pro則針對複雜的創意任務。這種三層方法——Lite用於容量、Flash用於速度、Pro用於複雜性——表明Google正在從OpenAI的定價失誤中學習,但為選擇模型的開發者創造了潛在的困惑。
對於開發者而言,直接的收益是在Google生態系統中的部署簡單性——AI Studio用於原型設計、Vertex AI用於企業,以及直接整合到Google Vids中。然而,預覽狀態和Google停止AI產品的歷史值得謹慎。SynthID浮水印雖然解決了倫理關切,但如果其他提供商提供無浮水印的替代方案,可能會成為競爭劣勢。
