Zubnet AIApprendreWiki › Text-to-Speech
Using AI

Text-to-Speech

TTS, Speech Synthesis, Voice AI
Convertir du texte écrit en audio parlé qui sonne naturel. Les systèmes TTS modernes utilisent des réseaux de neurones pour générer de la parole presque indiscernable des voix humaines, avec un contrôle sur l'émotion, le rythme, l'emphase et même le clonage de voix spécifiques. ElevenLabs, OpenAI TTS et des modèles ouverts comme Bark et XTTS ont rendu la synthèse vocale de haute qualité largement accessible.

Pourquoi c'est important

Le TTS complète la boucle du voice AI : la reconnaissance vocale convertit la voix en texte, un LLM la traite, et le TTS reconvertit la réponse en parole. Ça permet les assistants vocaux, la narration d'audiobooks, les outils d'accessibilité, la localisation de contenu, et les personnages IA dans les jeux et médias. La qualité du TTS moderne a traversé l'uncanny valley — la parole synthétisée sonne maintenant naturelle.

Deep Dive

Modern TTS typically works in two stages: a text-to-spectrogram model (converting text to a visual representation of audio frequencies) and a vocoder (converting the spectrogram to actual audio waveforms). Some newer approaches are end-to-end, directly generating audio tokens from text using Transformer-based architectures similar to LLMs but operating on audio tokens instead of text tokens.

Voice Cloning

Voice cloning creates a synthetic version of a specific person's voice from a short audio sample (sometimes as little as 15 seconds). This enables personalization, dubbing, and preserving voices of people who have lost the ability to speak. It also creates obvious risks: impersonation, fraud, and non-consensual voice replication. Most providers implement consent verification and watermarking to mitigate misuse.

The Latency Challenge

For conversational AI, TTS latency matters as much as quality. A user asking a voice assistant a question expects a response within 1–2 seconds. Full TTS generation can take longer, so streaming TTS (generating and playing audio in chunks as the LLM produces text) is essential. The pipeline — STT + LLM + TTS — must stay under ~2 seconds total for natural conversation, which constrains model sizes and infrastructure choices.

Concepts liés

← Tous les termes
← Test-Time Compute Throughput →