La synthèse vocale moderne fonctionne typiquement en deux étapes : un modèle texte-vers-spectrogramme (convertissant le texte en représentation visuelle des fréquences audio) et un vocodeur (convertissant le spectrogramme en ondes audio réelles). Certaines approches plus récentes sont de bout en bout, générant directement des tokens audio à partir du texte en utilisant des architectures basées sur les Transformers similaires aux LLM mais opérant sur des tokens audio au lieu de tokens textuels.
Le clonage vocal crée une version synthétique de la voix d'une personne spécifique à partir d'un court échantillon audio (parfois aussi peu que 15 secondes). Ça permet la personnalisation, le doublage et la préservation des voix de personnes ayant perdu la capacité de parler. Ça crée aussi des risques évidents : usurpation d'identité, fraude et réplication vocale non consentie. La plupart des fournisseurs implémentent une vérification de consentement et un filigranage pour limiter les abus.
Pour l'IA conversationnelle, la latence de la synthèse vocale compte autant que la qualité. Un utilisateur qui pose une question à un assistant vocal s'attend à une réponse dans les 1 à 2 secondes. La génération TTS complète peut prendre plus longtemps, donc le streaming TTS (générer et jouer l'audio par morceaux au fur et à mesure que le LLM produit du texte) est essentiel. Le pipeline — STT + LLM + TTS — doit rester sous environ 2 secondes au total pour une conversation naturelle, ce qui contraint les tailles de modèles et les choix d'infrastructure.