Whisper (OpenAI, 2022) es el modelo dominante de reconocimiento de voz abierto. Es un Transformer encoder-decoder entrenado con 680,000 horas de pares audio-texto multilingües extraídos de la web. El encoder procesa espectrogramas de audio (representaciones visuales de las frecuencias del sonido) y el decoder genera tokens de texto. Whisper maneja múltiples tareas: transcripción, traducción (audio en francés → texto en inglés) e identificación de idiomas.
Antes de Whisper, la transcripción de alta calidad requería APIs comerciales costosas o modelos específicos de dominio. Whisper igualó los servicios comerciales a costo cero (el modelo es de código abierto). Su capacidad multilingüe es particularmente fuerte — maneja cambio de código (mezclar idiomas a mitad de frase), acentos y ruido de fondo mucho mejor que los modelos abiertos anteriores. Las variantes más grandes de Whisper (large-v3) se acercan a la precisión a nivel humano para audio limpio.
Whisper fue diseñado para procesamiento por lotes (transcribir un archivo de audio completo), no para streaming en tiempo real. Las aplicaciones en tiempo real requieren dividir el audio en segmentos y transcribirlos incrementalmente, lo que añade complejidad en torno a los límites de palabras y el contexto. Modelos y servicios especializados (Deepgram, AssemblyAI) ofrecen APIs de streaming en tiempo real. La elección depende de tus requisitos de latencia: por lotes para transcripción de podcasts, streaming para subtítulos en vivo.