Cohere聲稱以5.42% WER奪得ASR王冠，但企業現實很複雜

Cohere發佈了Transcribe，這是一個自動語音辨識模型，在標準基準測試中實現了5.42%的平均詞錯誤率，在Hugging Face的Open ASR Leaderboard上奪得榜首。該模型使用Conformer編碼器搭配輕量級Transformer解碼器，支援14種語言，包括英語、中文、日語和阿拉伯語。在直接的人工評估中，標註員78%的時間更偏向Cohere的轉錄結果而非IBM Granite，64%的時間更偏向於OpenAI的Whisper Large v3。

這代表了Cohere首次從文字生成重大推進到語音處理，這是一個戰略性舉措，因為企業越來越需要大規模處理音頻數據。Conformer架構在這裡很有意義——結合CNN處理局部聲學特徵和Transformer處理全域上下文，比純注意力機制更好地解決了真實的ASR挑戰。然而，模型對長格式內容的35秒音頻分塊限制暴露了仍然困擾生產語音系統的記憶體限制。

值得注意的是Cohere的「質量勝過數量」方法，僅支援14種語言，直接與Whisper的100+語言支援競爭。基準測試看起來令人印象深刻，但企業ASR生活在口音語音、背景雜音和標準測試集無法捕獲的領域特定術語的混亂現實中。人類偏好指標更有說服力——真實使用者能夠區分WER分數遺漏的品質差異。

對於構建語音應用的開發者來說，這為你提供了除OpenAI和ElevenLabs之外的另一個強大選擇，特別是如果你需要自託管部署。35秒分塊限制意味著你仍然需要長音頻的預處理pipeline，但準確性提升可能值得工程開銷。值得在你的實際數據上測試——基準測試很少能在與生產音頻接觸時存活下來。

Cohere聲稱以5.42% WER奪得ASR王冠，但企業現實很複雜

更多新聞