Cohere声称以5.42% WER夺得ASR桂冠，但企业现实很复杂

Cohere发布了Transcribe，这是一个自动语音识别模型，在标准基准测试中实现了5.42%的平均词错误率，在Hugging Face的Open ASR Leaderboard上夺得榜首。该模型使用Conformer编码器配合轻量级Transformer解码器，支持14种语言，包括英语、中文、日语和阿拉伯语。在直接的人工评估中，注释员78%的时间更偏向Cohere的转录结果而非IBM Granite，64%的时间更偏向于OpenAI的Whisper Large v3。

这代表了Cohere首次从文本生成重大推进到语音处理，这是一个战略性举措，因为企业越来越需要大规模处理音频数据。Conformer架构在这里很有意义——结合CNN处理局部声学特征和Transformer处理全局上下文，比纯注意力机制更好地解决了真实的ASR挑战。然而，模型对长格式内容的35秒音频分块限制暴露了仍然困扰生产语音系统的内存限制。

值得注意的是Cohere的"质量胜过数量"方法，仅支持14种语言，直接与Whisper的100+语言支持竞争。基准测试看起来令人印象深刻，但企业ASR生活在口音语音、背景噪音和标准测试集无法捕获的领域特定术语的混乱现实中。人类偏好指标更有说服力——真实用户能够区分WER分数遗漏的质量差异。

对于构建语音应用的开发者来说，这为你提供了除OpenAI和ElevenLabs之外的另一个强大选择，特别是如果你需要自托管部署。35秒分块限制意味着你仍然需要长音频的预处理pipeline，但准确性提升可能值得工程开销。值得在你的实际数据上测试——基准测试很少能在与生产音频接触时存活下来。

Cohere声称以5.42% WER夺得ASR桂冠，但企业现实很复杂

更多新闻