Cohere发布了Transcribe,这是一个自动语音识别模型,在标准基准测试中实现了5.42%的平均词错误率,在Hugging Face的Open ASR Leaderboard上夺得榜首。该模型使用Conformer编码器配合轻量级Transformer解码器,支持14种语言,包括英语、中文、日语和阿拉伯语。在直接的人工评估中,注释员78%的时间更偏向Cohere的转录结果而非IBM Granite,64%的时间更偏向于OpenAI的Whisper Large v3。

这代表了Cohere首次从文本生成重大推进到语音处理,这是一个战略性举措,因为企业越来越需要大规模处理音频数据。Conformer架构在这里很有意义——结合CNN处理局部声学特征和Transformer处理全局上下文,比纯注意力机制更好地解决了真实的ASR挑战。然而,模型对长格式内容的35秒音频分块限制暴露了仍然困扰生产语音系统的内存限制。

值得注意的是Cohere的"质量胜过数量"方法,仅支持14种语言,直接与Whisper的100+语言支持竞争。基准测试看起来令人印象深刻,但企业ASR生活在口音语音、背景噪音和标准测试集无法捕获的领域特定术语的混乱现实中。人类偏好指标更有说服力——真实用户能够区分WER分数遗漏的质量差异。

对于构建语音应用的开发者来说,这为你提供了除OpenAI和ElevenLabs之外的另一个强大选择,特别是如果你需要自托管部署。35秒分块限制意味着你仍然需要长音频的预处理pipeline,但准确性提升可能值得工程开销。值得在你的实际数据上测试——基准测试很少能在与生产音频接触时存活下来。