Cohere發佈了Transcribe,這是一個自動語音辨識模型,在標準基準測試中實現了5.42%的平均詞錯誤率,在Hugging Face的Open ASR Leaderboard上奪得榜首。該模型使用Conformer編碼器搭配輕量級Transformer解碼器,支援14種語言,包括英語、中文、日語和阿拉伯語。在直接的人工評估中,標註員78%的時間更偏向Cohere的轉錄結果而非IBM Granite,64%的時間更偏向於OpenAI的Whisper Large v3。

這代表了Cohere首次從文字生成重大推進到語音處理,這是一個戰略性舉措,因為企業越來越需要大規模處理音頻數據。Conformer架構在這裡很有意義——結合CNN處理局部聲學特徵和Transformer處理全域上下文,比純注意力機制更好地解決了真實的ASR挑戰。然而,模型對長格式內容的35秒音頻分塊限制暴露了仍然困擾生產語音系統的記憶體限制。

值得注意的是Cohere的「質量勝過數量」方法,僅支援14種語言,直接與Whisper的100+語言支援競爭。基準測試看起來令人印象深刻,但企業ASR生活在口音語音、背景雜音和標準測試集無法捕獲的領域特定術語的混亂現實中。人類偏好指標更有說服力——真實使用者能夠區分WER分數遺漏的品質差異。

對於構建語音應用的開發者來說,這為你提供了除OpenAI和ElevenLabs之外的另一個強大選擇,特別是如果你需要自託管部署。35秒分塊限制意味著你仍然需要長音頻的預處理pipeline,但準確性提升可能值得工程開銷。值得在你的實際數據上測試——基準測試很少能在與生產音頻接觸時存活下來。