Mistral的Voxtral TTS擊敗ElevenLabs——但削弱了語音複製功能

Mistral在3月26日發布了Voxtral-4B-TTS，聲稱在人工評估中以62.8%的偏好分數擊敗了ElevenLabs v2.5 Flash。這個40億參數模型在3GB VRAM上運行，支援9種語言，並承諾從3秒音訊樣本實現zero-shot語音複製。但有個陷阱：Mistral從開放版本中移除了音訊autoencoder權重，意味著開發者只能使用Mistral的20個預設語音，無法在本地複製任意語音。

這是AI公司的經典行為——承諾開源，交付閹割版本。技術成就是真實的：Voxtral使用自迴歸LLM主幹（Ministral 3B）產生80ms音訊token，配備結合語義和聲學組件的複雜頭部。基於獨立測試，品質看起來是合法的。但沒有完整encoder，「開放權重」就變成了「演示版本」的行銷話術。

更廣泛的生態系統已經在繞過Mistral的限制。課程創建者正在圍繞純API語音複製建構培訓，價格為每千字元$0.016，而ElevenLabs訂閱費為$22/月。CC-BY-NC許可證本來就阻止商業自託管，無論如何都會將認真使用者推向Mistral的付費API。一些研究人員正在調查是否可以在沒有缺失encoder權重的情況下重建音訊表示，儘管成功與否仍不明確。

對開發者而言，這代表了「開放」AI的現狀：令人印象深刻的能力配以戰略性限制，將使用者導向付費服務。Voxtral的品質和效率值得注意，特別是對多語言應用而言，但語音複製的限制使其不如最初承諾的那麼吸引人。除非你滿足於預設語音或願意支付API費用，否則ElevenLabs仍是自訂語音工作的更好選擇。

Mistral的Voxtral TTS擊敗ElevenLabs——但削弱了語音複製功能

更多新聞