Speech Recognition: Definition & Meaning — AI Wiki

Converter áudio falado em texto. O reconhecimento de voz moderno usa modelos de deep learning (notavelmente Whisper da OpenAI) que podem transcrever áudio em 100+ línguas com precisão próxima à humana. A tecnologia move assistentes de voz, transcrição de reuniões, geração de legendas e ferramentas de acessibilidade.

Por que importa

Reconhecimento de voz desbloqueou a voz como modalidade de entrada para IA. Combinado com LLMs e text-to-speech, habilita interações IA totalmente dirigidas por voz. O lançamento aberto do Whisper democratizou transcrição de alta qualidade — você pode rodá-la localmente de graça. Para acessibilidade, é transformador: tornar conteúdo de áudio pesquisável, traduzível e disponível para usuários surdos ou com deficiência auditiva.

Deep Dive

Whisper (OpenAI, 2022) is the dominant open speech recognition model. It's an encoder-decoder Transformer trained on 680,000 hours of multilingual audio-text pairs scraped from the web. The encoder processes audio spectrograms (visual representations of sound frequencies), and the decoder generates text tokens. Whisper handles multiple tasks: transcription, translation (audio in French → text in English), and language identification.

The Accuracy Leap

Pre-Whisper, high-quality transcription required expensive commercial APIs or domain-specific models. Whisper matched commercial services at zero cost (the model is open-source). Its multilingual capability is particularly strong — it handles code-switching (mixing languages mid-sentence), accents, and background noise far better than previous open models. The larger Whisper variants (large-v3) approach human-level accuracy for clean audio.

Real-Time vs. Batch

Whisper was designed for batch processing (transcribe a complete audio file), not real-time streaming. Real-time applications require chunking audio into segments and transcribing them incrementally, which adds complexity around word boundaries and context. Specialized models and services (Deepgram, AssemblyAI) offer real-time streaming APIs. The choice depends on your latency requirements: batch for podcast transcription, streaming for live captioning.

Speech Recognition

Por que importa

Deep Dive

The Accuracy Leap

Real-Time vs. Batch

Conceitos relacionados