Whisper (OpenAI, 2022) est le modèle de reconnaissance vocale ouvert dominant. C'est un Transformer encodeur-décodeur entraîné sur 680 000 heures de paires audio-texte multilingues récoltées sur le web. L'encodeur traite les spectrogrammes audio (représentations visuelles des fréquences sonores), et le décodeur génère des tokens textuels. Whisper gère plusieurs tâches : transcription, traduction (audio en français → texte en anglais) et identification de langue.
Avant Whisper, la transcription de haute qualité nécessitait des API commerciales coûteuses ou des modèles spécifiques à un domaine. Whisper a égalé les services commerciaux à coût zéro (le modèle est open source). Sa capacité multilingue est particulièrement solide — il gère le code-switching (alternance de langues en pleine phrase), les accents et le bruit de fond bien mieux que les modèles ouverts précédents. Les plus grandes variantes de Whisper (large-v3) approchent la précision humaine pour l'audio propre.
Whisper a été conçu pour le traitement par lot (transcrire un fichier audio complet), pas pour le streaming en temps réel. Les applications temps réel nécessitent de découper l'audio en segments et de les transcrire de façon incrémentale, ce qui ajoute de la complexité autour des frontières de mots et du contexte. Des modèles et services spécialisés (Deepgram, AssemblyAI) offrent des API de streaming en temps réel. Le choix dépend de tes exigences de latence : traitement par lot pour la transcription de podcasts, streaming pour le sous-titrage en direct.