La clonación de voz moderna usa dos enfoques: TTS fine-tuning (adaptar un modelo de texto a voz en el audio de la voz objetivo) y clonación zero-shot (alimentar una muestra de voz como referencia a un modelo general que extrae y aplica las características de voz). Zero-shot es más conveniente (no requiere entrenamiento) pero ligeramente menos preciso. Fine-tuning produce mayor fidelidad pero requiere más audio y cómputo. ElevenLabs y la mayoría de servicios de consumo usan enfoques zero-shot.
La calidad del clon depende de: calidad de audio de la muestra de referencia (audio limpio y sin ruido produce mejores clones), cantidad de audio de referencia (más es mejor, pero rendimientos decrecientes después de ~1 minuto), diversidad del habla (muestras con entonación y emoción variadas clonan mejor que lectura monótona) y la capacidad del modelo de clonación. Los mejores sistemas actuales son casi indistinguibles del habla real para el estilo de habla típico del hablante de referencia, pero pueden fallar en emociones o estilos no representados en la referencia.
La mayoría de servicios respetables requieren verificación de consentimiento para clonación de voz: debes demostrar que tienes permiso para clonar una voz. Algunos usan verificación de voz (debes decir una frase específica con tu propia voz). Otros requieren documentación de consentimiento por escrito. La marca de agua del audio clonado se está convirtiendo en estándar para permitir la detección. Pero las herramientas de clonación de voz de código abierto (como so-vits-svc, RVC) no aplican consentimiento, generando preocupaciones continuas sobre el mal uso.