Synthèse vocale : Définition et signification — Wiki IA

Convertir du texte écrit en audio parlé au son naturel. Les systèmes TTS modernes utilisent des réseaux de neurones pour générer une parole quasi indistinguible des voix humaines, avec un contrôle sur l'émotion, le rythme, l'emphase, et même le clonage vocal. ElevenLabs, OpenAI TTS et des modèles ouverts comme Bark et XTTS ont rendu la synthèse vocale de haute qualité largement accessible.

Pourquoi c'est important

La synthèse vocale complète la boucle de l'IA vocale : la reconnaissance vocale convertit la voix en texte, un LLM le traite, et la synthèse vocale convertit la réponse en parole. Ça permet les assistants vocaux, la narration de livres audio, les outils d'accessibilité, la localisation de contenu et les personnages IA dans les jeux et médias. La qualité de la synthèse vocale moderne a franchi la vallée de l'étrange — la parole synthétisée sonne maintenant naturel.

En profondeur

La synthèse vocale moderne fonctionne typiquement en deux étapes : un modèle texte-vers-spectrogramme (convertissant le texte en représentation visuelle des fréquences audio) et un vocodeur (convertissant le spectrogramme en ondes audio réelles). Certaines approches plus récentes sont de bout en bout, générant directement des tokens audio à partir du texte en utilisant des architectures basées sur les Transformers similaires aux LLM mais opérant sur des tokens audio au lieu de tokens textuels.

Clonage vocal

Le clonage vocal crée une version synthétique de la voix d'une personne spécifique à partir d'un court échantillon audio (parfois aussi peu que 15 secondes). Ça permet la personnalisation, le doublage et la préservation des voix de personnes ayant perdu la capacité de parler. Ça crée aussi des risques évidents : usurpation d'identité, fraude et réplication vocale non consentie. La plupart des fournisseurs implémentent une vérification de consentement et un filigranage pour limiter les abus.

Le défi de la latence

Pour l'IA conversationnelle, la latence de la synthèse vocale compte autant que la qualité. Un utilisateur qui pose une question à un assistant vocal s'attend à une réponse dans les 1 à 2 secondes. La génération TTS complète peut prendre plus longtemps, donc le streaming TTS (générer et jouer l'audio par morceaux au fur et à mesure que le LLM produit du texte) est essentiel. Le pipeline — STT + LLM + TTS — doit rester sous environ 2 secondes au total pour une conversation naturelle, ce qui contraint les tailles de modèles et les choix d'infrastructure.

Synthèse vocale

Pourquoi c'est important

En profondeur

Clonage vocal

Le défi de la latence

Concepts connexes