Mistral發布了一個開源語音生成模型,據說能在智慧手錶和智慧型手機這樣小的裝置上運行。這家以緊湊但強大的語言模型聞名的法國AI公司,正在對裝置端語音合成做出大膽聲明,這可能消除對基於雲端語音服務的需求。細節仍然稀少——Mistral沒有公布技術規格、模型大小或benchmark比較。
這很重要,因為語音生成一直被Google、Amazon和OpenAI的雲端服務主導。在本地運行像樣的語音合成意味著不依賴網路、零延遲和完全隱私。但Mistral在高效模型方面的記錄給這個說法增加了可信度。他們的7B參數語言模型表現超出預期,並且在消費級硬體上運行推理的承諾上始終如一地兌現。
其他來源缺乏額外報導很說明問題。要麼這是一個沒有獲得關注的靜默發布,要麼Mistral故意對能力含糊其辭。沒有benchmark、沒有音訊樣本、沒有技術論文——只是聲稱它在智慧手錶上能工作。這要麼是令人印象深刻的工程,要麼是行銷超前於現實。
對於開發者來說,如果它能兌現,這可能是巨大的。本地語音生成開啟了離線語音應用,減少了API成本,並消除了隱私擔憂。但在把你的產品押注在這上面之前,等待實際的benchmark和音訊品質測試。Mistral在語言模型方面贏得了信任,但語音是完全不同的野獸。
