現代語音克隆使用兩種方法:TTS 微調(在目標語音的音訊上調適文字轉語音模型)和零樣本克隆(將語音樣本作為參考輸入通用模型,模型擷取並套用語音特徵)。零樣本更方便(不需要訓練),但精確度稍低。微調產生更高的保真度,但需要更多音訊和計算資源。ElevenLabs 和大多數消費服務使用零樣本方法。
克隆品質取決於:參考樣本的音訊品質(乾淨、無噪音的音訊產生更好的克隆)、參考音訊的數量(越多越好,但在約 1 分鐘後效益遞減)、語音的多樣性(具有多樣語調和情感的樣本克隆效果比單調朗讀好),以及克隆模型的能力。目前最佳系統在參考說話者的典型說話風格上幾乎與真實語音無法區分,但在參考中未代表的情感或風格上可能表現不佳。
大多數信譽良好的服務要求語音克隆的同意驗證:你必須證明你有權限克隆某個聲音。有些使用語音驗證(你必須用自己的聲音說出特定短語)。其他要求書面同意文件。克隆音訊的浮水印正在成為標準,以便偵測。但開源語音克隆工具(如 so-vits-svc、RVC)不強制要求同意,引發了對濫用的持續擔憂。