文字轉語音：定義與含義 — AI 維基

將書面文字轉換為自然流暢的語音音訊。現代 TTS 系統使用神經網路生成幾乎與人聲無法區分的語音，並能控制情感、節奏、語氣，甚至進行特定聲音的複製。ElevenLabs、OpenAI TTS 以及 Bark 和 XTTS 等開源模型已使高品質語音合成廣泛普及。

為什麼重要

TTS 完成了語音 AI 的迴路：語音辨識將語音轉換為文字，LLM 處理它，TTS 再將回應轉換回語音。這使語音助手、有聲書旁白、無障礙工具、內容在地化以及遊戲和媒體中的 AI 角色成為可能。現代 TTS 的品質已跨越恐怖谷 — 合成語音現在聽起來很自然。

深度解析

現代 TTS 通常分兩個階段工作：文字轉頻譜圖模型（將文字轉換為音訊頻率的視覺表示）和聲碼器（將頻譜圖轉換為實際音訊波形）。一些較新的方法是端對端的，使用類似 LLM 的基於 Transformer 的架構直接從文字生成音訊 token，但操作的是音訊 token 而非文字 token。

聲音複製

聲音複製從短音訊樣本（有時短至 15 秒）創建特定人聲的合成版本。這可用於個人化、配音和保存已失去說話能力者的聲音。它也帶來明顯的風險：冒充、詐騙和未經同意的聲音複製。大多數供應商實施同意驗證和浮水印以減少濫用。

延遲挑戰

對於對話式 AI，TTS 延遲與品質同樣重要。使用者向語音助手提問時期望在 1–2 秒內得到回應。完整的 TTS 生成可能需要更長時間，因此串流 TTS（在 LLM 產生文字時分段生成和播放音訊）是必不可少的。管線 — STT + LLM + TTS — 總共必須保持在約 2 秒以內才能自然對話，這限制了模型大小和基礎設施的選擇。

文字轉語音

為什麼重要

深度解析

聲音複製

延遲挑戰

相關概念