文字转语音：定义与含义 — AI 维基

将书面文本转换为自然流畅的语音音频。现代TTS系统使用神经网络生成几乎无法与人类声音区分的语音，并能控制情感、节奏、重音，甚至进行特定的语音克隆。ElevenLabs、OpenAI TTS以及Bark和XTTS等开源模型使高质量语音合成变得广泛可及。

为什么重要

TTS完成了语音AI的闭环：语音识别将语音转为文本，LLM处理文本，TTS将回复转回语音。这使语音助手、有声书朗读、无障碍工具、内容本地化以及游戏和媒体中的AI角色成为可能。现代TTS的质量已经跨越了恐怖谷——合成语音现在听起来很自然。

深度解析

现代TTS通常分两个阶段工作：文本到频谱图模型（将文本转换为音频频率的视觉表示）和声码器（将频谱图转换为实际音频波形）。一些较新的方法是端到端的，使用类似LLM的基于Transformer的架构直接从文本生成音频token，但操作的是音频token而非文本token。

语音克隆

语音克隆从短音频样本（有时仅需15秒）创建特定人物声音的合成版本。这使个性化、配音和保存失去说话能力的人的声音成为可能。它也带来了明显的风险：冒充、欺诈和未经同意的语音复制。大多数提供商实施了同意验证和水印来减少滥用。

延迟挑战

对于对话式AI，TTS延迟和质量同样重要。用户向语音助手提问时期望在1–2秒内得到回复。完整的TTS生成可能需要更长时间，因此流式TTS（在LLM生成文本的同时分块生成和播放音频）至关重要。整个流水线——STT + LLM + TTS——必须保持在约2秒以内才能实现自然对话，这限制了模型大小和基础设施选择。

文字转语音

为什么重要

深度解析

语音克隆

延迟挑战

相关概念