O Whisper (OpenAI, 2022) é o modelo dominante de reconhecimento de fala open-source. É um Transformer encoder-decoder treinado em 680.000 horas de pares áudio-texto multilíngues coletados da web. O encoder processa espectrogramas de áudio (representações visuais de frequências sonoras), e o decoder gera tokens de texto. O Whisper lida com múltiplas tarefas: transcrição, tradução (áudio em francês → texto em inglês) e identificação de idioma.
Antes do Whisper, transcrição de alta qualidade exigia APIs comerciais caras ou modelos específicos de domínio. O Whisper igualou serviços comerciais a custo zero (o modelo é open-source). Sua capacidade multilíngue é particularmente forte — ele lida com code-switching (mistura de idiomas no meio da frase), sotaques e ruído de fundo muito melhor que modelos abertos anteriores. As variantes maiores do Whisper (large-v3) se aproximam da precisão humana para áudio limpo.
O Whisper foi projetado para processamento em batch (transcrever um arquivo de áudio completo), não streaming em tempo real. Aplicações em tempo real exigem dividir o áudio em segmentos e transcrevê-los incrementalmente, o que adiciona complexidade em torno de limites de palavras e contexto. Modelos e serviços especializados (Deepgram, AssemblyAI) oferecem APIs de streaming em tempo real. A escolha depende dos seus requisitos de latência: batch para transcrição de podcasts, streaming para legendagem ao vivo.