语音识别：定义与含义 — AI 维基

将口语音频转换为文本。现代语音识别使用深度学习模型（最著名的是OpenAI的Whisper），能以接近人类的准确率转录100+种语言的音频。该技术驱动语音助手、会议转录、字幕生成和无障碍工具。

为什么重要

语音识别将语音解锁为AI的输入模态。结合LLM和文字转语音，它实现了完全语音驱动的AI交互。Whisper的开源发布使高质量转录民主化——你可以免费在本地运行它。对于无障碍性而言，它具有变革性：使音频内容可搜索、可翻译，并向聋人和听障用户开放。

深度解析

Whisper（OpenAI，2022）是主导的开源语音识别模型。它是一个编码器-解码器Transformer，在从网络抓取的68万小时多语言音频-文本对上训练。编码器处理音频频谱图（声音频率的视觉表示），解码器生成文本token。Whisper处理多项任务：转录、翻译（法语音频 → 英文文本）和语言识别。

准确率飞跃

在Whisper之前，高质量转录需要昂贵的商业API或特定领域模型。Whisper以零成本达到了商业服务的水平（模型是开源的）。其多语言能力特别强——它在处理语码转换（句中混合语言）、口音和背景噪声方面远优于之前的开源模型。较大的Whisper变体（large-v3）在清晰音频上接近人类水平的准确率。

实时处理与批处理

Whisper设计用于批处理（转录完整的音频文件），而非实时流式处理。实时应用需要将音频切分成片段并逐步转录，这增加了词边界和上下文方面的复杂性。专业的模型和服务（Deepgram、AssemblyAI）提供实时流式API。选择取决于你的延迟要求：播客转录用批处理，实时字幕用流式处理。

语音识别

为什么重要

深度解析

准确率飞跃

实时处理与批处理

相关概念