Reconocimiento de voz: Definición y significado — Wiki de IA

Convertir audio hablado en texto. El reconocimiento de voz moderno utiliza modelos de deep learning (especialmente Whisper de OpenAI) que pueden transcribir audio en más de 100 idiomas con precisión casi humana. La tecnología impulsa asistentes de voz, transcripción de reuniones, generación de subtítulos y herramientas de accesibilidad.

Por qué importa

El reconocimiento de voz desbloqueó la voz como modalidad de entrada para la IA. Combinado con LLMs y text-to-speech, permite interacciones de IA completamente por voz. La publicación abierta de Whisper democratizó la transcripción de alta calidad — puedes ejecutarlo localmente gratis. Para la accesibilidad, es transformador: hace que el contenido de audio sea buscable, traducible y disponible para personas sordas o con dificultades auditivas.

En profundidad

Whisper (OpenAI, 2022) es el modelo dominante de reconocimiento de voz abierto. Es un Transformer encoder-decoder entrenado con 680,000 horas de pares audio-texto multilingües extraídos de la web. El encoder procesa espectrogramas de audio (representaciones visuales de las frecuencias del sonido) y el decoder genera tokens de texto. Whisper maneja múltiples tareas: transcripción, traducción (audio en francés → texto en inglés) e identificación de idiomas.

El salto en precisión

Antes de Whisper, la transcripción de alta calidad requería APIs comerciales costosas o modelos específicos de dominio. Whisper igualó los servicios comerciales a costo cero (el modelo es de código abierto). Su capacidad multilingüe es particularmente fuerte — maneja cambio de código (mezclar idiomas a mitad de frase), acentos y ruido de fondo mucho mejor que los modelos abiertos anteriores. Las variantes más grandes de Whisper (large-v3) se acercan a la precisión a nivel humano para audio limpio.

Tiempo real vs. por lotes

Whisper fue diseñado para procesamiento por lotes (transcribir un archivo de audio completo), no para streaming en tiempo real. Las aplicaciones en tiempo real requieren dividir el audio en segmentos y transcribirlos incrementalmente, lo que añade complejidad en torno a los límites de palabras y el contexto. Modelos y servicios especializados (Deepgram, AssemblyAI) ofrecen APIs de streaming en tiempo real. La elección depende de tus requisitos de latencia: por lotes para transcripción de podcasts, streaming para subtítulos en vivo.

Reconocimiento de voz

Por qué importa

En profundidad

El salto en precisión

Tiempo real vs. por lotes

Conceptos relacionados