现代TTS通常分两个阶段工作:文本到频谱图模型(将文本转换为音频频率的视觉表示)和声码器(将频谱图转换为实际音频波形)。一些较新的方法是端到端的,使用类似LLM的基于Transformer的架构直接从文本生成音频token,但操作的是音频token而非文本token。
语音克隆从短音频样本(有时仅需15秒)创建特定人物声音的合成版本。这使个性化、配音和保存失去说话能力的人的声音成为可能。它也带来了明显的风险:冒充、欺诈和未经同意的语音复制。大多数提供商实施了同意验证和水印来减少滥用。
对于对话式AI,TTS延迟和质量同样重要。用户向语音助手提问时期望在1–2秒内得到回复。完整的TTS生成可能需要更长时间,因此流式TTS(在LLM生成文本的同时分块生成和播放音频)至关重要。整个流水线——STT + LLM + TTS——必须保持在约2秒以内才能实现自然对话,这限制了模型大小和基础设施选择。