El TTS moderno típicamente funciona en dos etapas: un modelo de texto a espectrograma (que convierte texto en una representación visual de frecuencias de audio) y un vocoder (que convierte el espectrograma en formas de onda de audio reales). Algunos enfoques más recientes son de extremo a extremo, generando directamente tokens de audio a partir del texto usando arquitecturas basadas en Transformer similares a los LLMs pero operando con tokens de audio en lugar de tokens de texto.
La clonación de voz crea una versión sintética de la voz de una persona específica a partir de una muestra corta de audio (a veces tan breve como 15 segundos). Esto permite personalización, doblaje y preservación de voces de personas que han perdido la capacidad de hablar. También crea riesgos evidentes: suplantación de identidad, fraude y replicación de voz sin consentimiento. La mayoría de los proveedores implementan verificación de consentimiento y marcas de agua para mitigar el mal uso.
Para la IA conversacional, la latencia del TTS importa tanto como la calidad. Un usuario que hace una pregunta a un asistente de voz espera una respuesta en 1–2 segundos. La generación completa de TTS puede tomar más tiempo, por lo que el TTS en streaming (generar y reproducir audio en fragmentos a medida que el LLM produce texto) es esencial. El pipeline — STT + LLM + TTS — debe mantenerse por debajo de ~2 segundos en total para una conversación natural, lo que limita los tamaños de modelos y las opciones de infraestructura.