Zubnet AI学习Wiki › 文字转语音
使用

文字转语音

别名:TTS、语音合成、语音AI
将书面文本转换为自然流畅的语音音频。现代TTS系统使用神经网络生成几乎无法与人类声音区分的语音,并能控制情感、节奏、重音,甚至进行特定的语音克隆。ElevenLabs、OpenAI TTS以及Bark和XTTS等开源模型使高质量语音合成变得广泛可及。

为什么重要

TTS完成了语音AI的闭环:语音识别将语音转为文本,LLM处理文本,TTS将回复转回语音。这使语音助手、有声书朗读、无障碍工具、内容本地化以及游戏和媒体中的AI角色成为可能。现代TTS的质量已经跨越了恐怖谷——合成语音现在听起来很自然。

深度解析

现代TTS通常分两个阶段工作:文本到频谱图模型(将文本转换为音频频率的视觉表示)和声码器(将频谱图转换为实际音频波形)。一些较新的方法是端到端的,使用类似LLM的基于Transformer的架构直接从文本生成音频token,但操作的是音频token而非文本token。

语音克隆

语音克隆从短音频样本(有时仅需15秒)创建特定人物声音的合成版本。这使个性化、配音和保存失去说话能力的人的声音成为可能。它也带来了明显的风险:冒充、欺诈和未经同意的语音复制。大多数提供商实施了同意验证和水印来减少滥用。

延迟挑战

对于对话式AI,TTS延迟和质量同样重要。用户向语音助手提问时期望在1–2秒内得到回复。完整的TTS生成可能需要更长时间,因此流式TTS(在LLM生成文本的同时分块生成和播放音频)至关重要。整个流水线——STT + LLM + TTS——必须保持在约2秒以内才能实现自然对话,这限制了模型大小和基础设施选择。

相关概念

← 所有术语
← 数据标注 无监督学习 →