Mistral在3月26日發布了Voxtral-4B-TTS,聲稱在人工評估中以62.8%的偏好分數擊敗了ElevenLabs v2.5 Flash。這個40億參數模型在3GB VRAM上運行,支援9種語言,並承諾從3秒音訊樣本實現zero-shot語音複製。但有個陷阱:Mistral從開放版本中移除了音訊autoencoder權重,意味著開發者只能使用Mistral的20個預設語音,無法在本地複製任意語音。
這是AI公司的經典行為——承諾開源,交付閹割版本。技術成就是真實的:Voxtral使用自迴歸LLM主幹(Ministral 3B)產生80ms音訊token,配備結合語義和聲學組件的複雜頭部。基於獨立測試,品質看起來是合法的。但沒有完整encoder,「開放權重」就變成了「演示版本」的行銷話術。
更廣泛的生態系統已經在繞過Mistral的限制。課程創建者正在圍繞純API語音複製建構培訓,價格為每千字元$0.016,而ElevenLabs訂閱費為$22/月。CC-BY-NC許可證本來就阻止商業自託管,無論如何都會將認真使用者推向Mistral的付費API。一些研究人員正在調查是否可以在沒有缺失encoder權重的情況下重建音訊表示,儘管成功與否仍不明確。
對開發者而言,這代表了「開放」AI的現狀:令人印象深刻的能力配以戰略性限制,將使用者導向付費服務。Voxtral的品質和效率值得注意,特別是對多語言應用而言,但語音複製的限制使其不如最初承諾的那麼吸引人。除非你滿足於預設語音或願意支付API費用,否則ElevenLabs仍是自訂語音工作的更好選擇。
