Le clonage vocal moderne utilise deux approches : le fine-tuning TTS (adapter un modèle de synthèse vocale sur l'audio de la voix cible) et le clonage zero-shot (envoyer un échantillon vocal comme référence à un modèle général qui extrait et applique les caractéristiques vocales). Le zero-shot est plus pratique (pas d'entraînement nécessaire) mais légèrement moins précis. Le fine-tuning produit une fidélité plus élevée mais nécessite plus d'audio et de calcul. ElevenLabs et la plupart des services grand public utilisent des approches zero-shot.
La qualité du clone dépend de : la qualité audio de l'échantillon de référence (un audio propre et sans bruit produit de bien meilleurs clones), la quantité d'audio de référence (plus c'est mieux, mais les rendements diminuent après ~1 minute), la diversité du discours (des échantillons avec une intonation et des émotions variées se clonent mieux qu'une lecture monotone), et la capacité du modèle de clonage. Les meilleurs systèmes actuels sont pratiquement indiscernables de la parole réelle pour le style de parole typique du locuteur de référence, mais peuvent faiblir sur des émotions ou styles non représentés dans la référence.
La plupart des services réputés exigent une vérification de consentement pour le clonage vocal : tu dois prouver que tu as la permission de cloner une voix. Certains utilisent la vérification vocale (tu dois dire une phrase spécifique dans ta propre voix). D'autres exigent une documentation de consentement écrit. Le filigranage de l'audio cloné devient standard pour permettre la détection. Mais les outils de clonage vocal open source (comme so-vits-svc, RVC) n'imposent pas le consentement, soulevant des préoccupations continues sur les abus.