Zubnet AI学习Wiki › 语音识别
使用

语音识别

别名:STT、语音转文字、ASR
将口语音频转换为文本。现代语音识别使用深度学习模型(最著名的是OpenAI的Whisper),能以接近人类的准确率转录100+种语言的音频。该技术驱动语音助手、会议转录、字幕生成和无障碍工具。

为什么重要

语音识别将语音解锁为AI的输入模态。结合LLM和文字转语音,它实现了完全语音驱动的AI交互。Whisper的开源发布使高质量转录民主化——你可以免费在本地运行它。对于无障碍性而言,它具有变革性:使音频内容可搜索、可翻译,并向聋人和听障用户开放。

深度解析

Whisper(OpenAI,2022)是主导的开源语音识别模型。它是一个编码器-解码器Transformer,在从网络抓取的68万小时多语言音频-文本对上训练。编码器处理音频频谱图(声音频率的视觉表示),解码器生成文本token。Whisper处理多项任务:转录、翻译(法语音频 → 英文文本)和语言识别。

准确率飞跃

在Whisper之前,高质量转录需要昂贵的商业API或特定领域模型。Whisper以零成本达到了商业服务的水平(模型是开源的)。其多语言能力特别强——它在处理语码转换(句中混合语言)、口音和背景噪声方面远优于之前的开源模型。较大的Whisper变体(large-v3)在清晰音频上接近人类水平的准确率。

实时处理与批处理

Whisper设计用于批处理(转录完整的音频文件),而非实时流式处理。实时应用需要将音频切分成片段并逐步转录,这增加了词边界和上下文方面的复杂性。专业的模型和服务(Deepgram、AssemblyAI)提供实时流式API。选择取决于你的延迟要求:播客转录用批处理,实时字幕用流式处理。

相关概念

← 所有术语
← 语音 AI 课程学习 →