Mistral的Voxtral TTS击败ElevenLabs——但阉割了语音克隆功能

Mistral在3月26日发布了Voxtral-4B-TTS，声称在人工评估中以62.8%的偏好分数击败了ElevenLabs v2.5 Flash。这个40亿参数模型在3GB VRAM上运行，支持9种语言，并承诺从3秒音频样本实现zero-shot语音克隆。但有个陷阱：Mistral从开放版本中移除了音频autoencoder权重，意味着开发者只能使用Mistral的20个预设语音，无法在本地克隆任意语音。

这是AI公司的经典行为——承诺开源，交付阉割版本。技术成就是真实的：Voxtral使用自回归LLM主干（Ministral 3B）生成80ms音频token，配备结合语义和声学组件的复杂头部。基于独立测试，质量看起来是合法的。但没有完整encoder，"开放权重"就变成了"演示版本"的营销话术。

更广泛的生态系统已经在绕过Mistral的限制。课程创建者正在围绕纯API语音克隆构建培训，价格为每千字符$0.016，而ElevenLabs订阅费为$22/月。CC-BY-NC许可证本来就阻止商业自托管，无论如何都会将认真用户推向Mistral的付费API。一些研究人员正在调查是否可以在没有缺失encoder权重的情况下重建音频表示，尽管成功与否仍不明确。

对开发者而言，这代表了"开放"AI的现状：令人印象深刻的能力配以战略性限制，将用户导向付费服务。Voxtral的质量和效率值得注意，特别是对多语言应用而言，但语音克隆的限制使其不如最初承诺的那么吸引人。除非你满足于预设语音或愿意支付API费用，否则ElevenLabs仍是自定义语音工作的更好选择。

Mistral的Voxtral TTS击败ElevenLabs——但阉割了语音克隆功能

更多新闻