將書面文字轉換為自然流暢的語音音訊。現代 TTS 系統使用神經網路生成幾乎與人聲無法區分的語音,並能控制情感、節奏、語氣,甚至進行特定聲音的複製。ElevenLabs、OpenAI TTS 以及 Bark 和 XTTS 等開源模型已使高品質語音合成廣泛普及。
TTS 完成了語音 AI 的迴路:語音辨識將語音轉換為文字,LLM 處理它,TTS 再將回應轉換回語音。這使語音助手、有聲書旁白、無障礙工具、內容在地化以及遊戲和媒體中的 AI 角色成為可能。現代 TTS 的品質已跨越恐怖谷 — 合成語音現在聽起來很自然。
現代 TTS 通常分兩個階段工作:文字轉頻譜圖模型(將文字轉換為音訊頻率的視覺表示)和聲碼器(將頻譜圖轉換為實際音訊波形)。一些較新的方法是端對端的,使用類似 LLM 的基於 Transformer 的架構直接從文字生成音訊 token,但操作的是音訊 token 而非文字 token。
聲音複製從短音訊樣本(有時短至 15 秒)創建特定人聲的合成版本。這可用於個人化、配音和保存已失去說話能力者的聲音。它也帶來明顯的風險:冒充、詐騙和未經同意的聲音複製。大多數供應商實施同意驗證和浮水印以減少濫用。
對於對話式 AI,TTS 延遲與品質同樣重要。使用者向語音助手提問時期望在 1–2 秒內得到回應。完整的 TTS 生成可能需要更長時間,因此串流 TTS(在 LLM 產生文字時分段生成和播放音訊)是必不可少的。管線 — STT + LLM + TTS — 總共必須保持在約 2 秒以內才能自然對話,這限制了模型大小和基礎設施的選擇。