Reconnaissance vocale : Définition et signification — Wiki IA

Convertir la parole en texte. La reconnaissance vocale moderne utilise des modèles d'apprentissage profond (notamment Whisper d'OpenAI) capables de transcrire de l'audio dans plus de 100 langues avec une précision quasi humaine. La technologie propulse les assistants vocaux, la transcription de réunions, la génération de sous-titres et les outils d'accessibilité.

Pourquoi c'est important

La reconnaissance vocale a débloqué la voix comme modalité d'entrée pour l'IA. Combinée aux LLM et à la synthèse vocale, elle permet des interactions IA entièrement pilotées par la voix. La sortie ouverte de Whisper a démocratisé la transcription de haute qualité — tu peux l'exécuter localement et gratuitement. Pour l'accessibilité, c'est transformateur : rendre le contenu audio cherchable, traduisible et accessible aux personnes sourdes et malentendantes.

En profondeur

Whisper (OpenAI, 2022) est le modèle de reconnaissance vocale ouvert dominant. C'est un Transformer encodeur-décodeur entraîné sur 680 000 heures de paires audio-texte multilingues récoltées sur le web. L'encodeur traite les spectrogrammes audio (représentations visuelles des fréquences sonores), et le décodeur génère des tokens textuels. Whisper gère plusieurs tâches : transcription, traduction (audio en français → texte en anglais) et identification de langue.

Le bond en précision

Avant Whisper, la transcription de haute qualité nécessitait des API commerciales coûteuses ou des modèles spécifiques à un domaine. Whisper a égalé les services commerciaux à coût zéro (le modèle est open source). Sa capacité multilingue est particulièrement solide — il gère le code-switching (alternance de langues en pleine phrase), les accents et le bruit de fond bien mieux que les modèles ouverts précédents. Les plus grandes variantes de Whisper (large-v3) approchent la précision humaine pour l'audio propre.

Temps réel vs. traitement par lot

Whisper a été conçu pour le traitement par lot (transcrire un fichier audio complet), pas pour le streaming en temps réel. Les applications temps réel nécessitent de découper l'audio en segments et de les transcrire de façon incrémentale, ce qui ajoute de la complexité autour des frontières de mots et du contexte. Des modèles et services spécialisés (Deepgram, AssemblyAI) offrent des API de streaming en temps réel. Le choix dépend de tes exigences de latence : traitement par lot pour la transcription de podcasts, streaming pour le sous-titrage en direct.

Reconnaissance vocale

Pourquoi c'est important

En profondeur

Le bond en précision

Temps réel vs. traitement par lot

Concepts connexes