语音克隆：定义与含义 — AI 维基

从简短的音频样本创建特定人声音的合成副本，使文本转语音听起来像那个人。现代系统（ElevenLabs、PlayHT、Resemble AI）可以从短至15秒的音频以惊人的保真度克隆声音，捕捉音调、口音、说话风格和情感范围。

为什么重要

语音克隆实现了强大的创意和无障碍应用：以演员自己的声音跨语言配音电影、保存正在失去说话能力的人（ALS患者）的声音、创建一致的品牌语音，以及个性化AI助手。它也造成了严重的风险：冒充家人的电话诈骗、公众人物的虚假音频，以及未经同意的语音复制。

深度解析

现代语音克隆使用两种方法：TTS微调（在目标声音的音频上适配文本转语音模型）和零样本克隆（将语音样本作为参考输入到通用模型中，该模型提取并应用声音特征）。零样本更方便（无需训练）但精度稍低。微调产出更高保真度但需要更多音频和算力。ElevenLabs和大多数消费级服务使用零样本方法。

质量因素

克隆质量取决于：参考样本的音频质量（干净无噪音的音频产出更好的克隆）、参考音频的量（越多越好，但1分钟后收益递减）、语音多样性（带有丰富语调和情感变化的样本比单调的朗读克隆效果更好），以及克隆模型的能力。当前最好的系统对参考说话者的典型说话风格几乎与真实语音无法区分，但在参考中未体现的情感或风格上可能出现偏差。

安全与同意

大多数信誉良好的服务要求语音克隆的同意验证：你必须证明你有权限克隆某个声音。有些使用语音验证（你必须用自己的声音说出特定短语），其他的要求书面同意文件。克隆音频的水印正在成为检测的标准手段。但开源语音克隆工具（如so-vits-svc、RVC）不强制同意，引发了持续的滥用担忧。