Mistral在3月26日发布了Voxtral-4B-TTS,声称在人工评估中以62.8%的偏好分数击败了ElevenLabs v2.5 Flash。这个40亿参数模型在3GB VRAM上运行,支持9种语言,并承诺从3秒音频样本实现zero-shot语音克隆。但有个陷阱:Mistral从开放版本中移除了音频autoencoder权重,意味着开发者只能使用Mistral的20个预设语音,无法在本地克隆任意语音。

这是AI公司的经典行为——承诺开源,交付阉割版本。技术成就是真实的:Voxtral使用自回归LLM主干(Ministral 3B)生成80ms音频token,配备结合语义和声学组件的复杂头部。基于独立测试,质量看起来是合法的。但没有完整encoder,"开放权重"就变成了"演示版本"的营销话术。

更广泛的生态系统已经在绕过Mistral的限制。课程创建者正在围绕纯API语音克隆构建培训,价格为每千字符$0.016,而ElevenLabs订阅费为$22/月。CC-BY-NC许可证本来就阻止商业自托管,无论如何都会将认真用户推向Mistral的付费API。一些研究人员正在调查是否可以在没有缺失encoder权重的情况下重建音频表示,尽管成功与否仍不明确。

对开发者而言,这代表了"开放"AI的现状:令人印象深刻的能力配以战略性限制,将用户导向付费服务。Voxtral的质量和效率值得注意,特别是对多语言应用而言,但语音克隆的限制使其不如最初承诺的那么吸引人。除非你满足于预设语音或愿意支付API费用,否则ElevenLabs仍是自定义语音工作的更好选择。