TTS moderno tipicamente funciona em duas etapas: um modelo texto-para-espectrograma (convertendo texto em uma representação visual de frequências de áudio) e um vocoder (convertendo o espectrograma em formas de onda de áudio reais). Algumas abordagens mais novas são de ponta a ponta, gerando tokens de áudio diretamente do texto usando arquiteturas baseadas em Transformer semelhantes a LLMs, mas operando em tokens de áudio em vez de tokens de texto.
Clonagem de voz cria uma versão sintética da voz de uma pessoa específica a partir de uma amostra curta de áudio (às vezes apenas 15 segundos). Isso permite personalização, dublagem e preservação de vozes de pessoas que perderam a capacidade de falar. Também cria riscos óbvios: imitação, fraude e replicação de voz sem consentimento. A maioria dos provedores implementa verificação de consentimento e marca d'água para mitigar uso indevido.
Para IA conversacional, a latência do TTS importa tanto quanto a qualidade. Um usuário fazendo uma pergunta a um assistente de voz espera uma resposta dentro de 1–2 segundos. A geração completa de TTS pode demorar mais, então TTS com streaming (gerando e reproduzindo áudio em blocos conforme o LLM produz texto) é essencial. O pipeline — STT + LLM + TTS — precisa ficar abaixo de ~2 segundos no total para conversa natural, o que restringe tamanhos de modelos e escolhas de infraestrutura.