Cohere發布了一個擁有20億參數的開源語音轉錄模型,專為希望在不使用企業級硬體的情況下進行自架的開發者設計。該模型支援14種語言,可在消費級GPU上運行,將自己定位為注重隱私的替代方案,以對抗基於雲端的轉錄服務,如OpenAI的Whisper API或Google的Speech-to-Text。
這在競爭激烈的領域中是明智的定位。雖然OpenAI的Whisper在開源轉錄領域占主導地位,但它並非為即時應用或資源受限環境而構建。Cohere的專注方法——更小的模型、僅轉錄功能、消費級硬體相容性——解決了真正的部署痛點。20億參數的規模大致相當於Whisper的基礎模型,但專門為效率而非通用性而構建。
公告中明顯缺失的內容:與Whisper準確性對比的基準測試、延遲測量或除「消費級」之外的具體GPU要求。沒有效能資料,開發者無法評估便利性權衡是否值得。14種語言支援也引發了關於每種語言品質的問題——專門化模型往往在資源較少的語言上表現不佳。
對於構建語音應用的團隊來說,這可能解決了自架的難題,這個問題讓許多人仍困於API服務。如果準確性能夠保持,擁有一個可以本地部署而無需向第三方發送音訊資料的模型確實很有價值。真正的考驗將是20億參數是否能夠匹配開發者對更大模型所期望的品質。
