Whisper(OpenAI,2022)是主导的开源语音识别模型。它是一个编码器-解码器Transformer,在从网络抓取的68万小时多语言音频-文本对上训练。编码器处理音频频谱图(声音频率的视觉表示),解码器生成文本token。Whisper处理多项任务:转录、翻译(法语音频 → 英文文本)和语言识别。
在Whisper之前,高质量转录需要昂贵的商业API或特定领域模型。Whisper以零成本达到了商业服务的水平(模型是开源的)。其多语言能力特别强——它在处理语码转换(句中混合语言)、口音和背景噪声方面远优于之前的开源模型。较大的Whisper变体(large-v3)在清晰音频上接近人类水平的准确率。
Whisper设计用于批处理(转录完整的音频文件),而非实时流式处理。实时应用需要将音频切分成片段并逐步转录,这增加了词边界和上下文方面的复杂性。专业的模型和服务(Deepgram、AssemblyAI)提供实时流式API。选择取决于你的延迟要求:播客转录用批处理,实时字幕用流式处理。