A clonagem de voz moderna usa duas abordagens: fine-tuning de TTS (adaptar um modelo text-to-speech no áudio da voz alvo) e clonagem zero-shot (alimentar uma amostra de voz como referência a um modelo geral que extrai e aplica as características vocais). Zero-shot é mais conveniente (sem treinamento necessário) mas ligeiramente menos preciso. Fine-tuning produz maior fidelidade mas requer mais áudio e computação. ElevenLabs e a maioria dos serviços de consumo usam abordagens zero-shot.
A qualidade da clonagem depende de: qualidade do áudio da amostra de referência (áudio limpo e sem ruído produz clones muito melhores), quantidade de áudio de referência (mais é melhor, mas com retornos decrescentes após ~1 minuto), diversidade da fala (amostras com entonação e emoção variadas clonam melhor do que leitura monótona) e a capacidade do modelo de clonagem. Os melhores sistemas atuais são quase indistinguíveis da fala real para o estilo de fala típico do falante de referência, mas podem falhar em emoções ou estilos não representados na referência.
A maioria dos serviços respeitáveis exige verificação de consentimento para clonagem de voz: você deve provar que tem permissão para clonar uma voz. Alguns usam verificação de voz (você deve dizer uma frase específica com sua própria voz). Outros exigem documentação de consentimento por escrito. Marca d'água de áudio clonado está se tornando padrão para permitir detecção. Mas ferramentas de clonagem de voz open-source (como so-vits-svc, RVC) não impõem consentimento, levantando preocupações contínuas sobre uso indevido.