现代语音克隆使用两种方法:TTS微调(在目标声音的音频上适配文本转语音模型)和零样本克隆(将语音样本作为参考输入到通用模型中,该模型提取并应用声音特征)。零样本更方便(无需训练)但精度稍低。微调产出更高保真度但需要更多音频和算力。ElevenLabs和大多数消费级服务使用零样本方法。
克隆质量取决于:参考样本的音频质量(干净无噪音的音频产出更好的克隆)、参考音频的量(越多越好,但1分钟后收益递减)、语音多样性(带有丰富语调和情感变化的样本比单调的朗读克隆效果更好),以及克隆模型的能力。当前最好的系统对参考说话者的典型说话风格几乎与真实语音无法区分,但在参考中未体现的情感或风格上可能出现偏差。
大多数信誉良好的服务要求语音克隆的同意验证:你必须证明你有权限克隆某个声音。有些使用语音验证(你必须用自己的声音说出特定短语),其他的要求书面同意文件。克隆音频的水印正在成为检测的标准手段。但开源语音克隆工具(如so-vits-svc、RVC)不强制同意,引发了持续的滥用担忧。