Cartesia 於 2023 年由一群來自史丹佛大學的研究人員創立,包括 Karan Goel、Albert Gu 等人,他們曾深度參與狀態空間模型 (SSMs) 的開發。Albert Gu 被廣泛認為是 S4 和 Mamba 架構的設計者——這些序列建模的突破性成果證明了 Transformer 並非處理序列資料深度學習的唯一可行路徑。Cartesia 從該研究中獨立出來,並提出明確的假設:SSMs 可以提供比基於 Transformer 的方法具有根本性更低延遲與更好串流特性的語音 AI,而現在正是商業化這項優勢的時機。
Cartesia 的技術核心與大多數語音 AI 公司確實有所不同。雖然 ElevenLabs 和 PlayHT 等競爭對手基於 Transformer 架構(或以注意力機制為主的混合系統)進行開發,Cartesia 的 Sonic 模型則原生建置於 SSM 架構之上。實際的影響非常重大:SSMs 處理序列資料的時間與長度呈線性關係,而標準注意力機制則呈二次方擴展。針對語音生成而言,這代表 Sonic 可以在端到端延遲低於 100 毫秒的情況下產生語音——足夠快,使對話式 AI 應用的回應感覺像是即時而非「稍微延遲」。這並非微幅改進;這差異在於語音助手感覺像電話對話,還是感覺像與機器對話。
Cartesia 將 Sonic 推出為其旗艦模型,並迅速因其速度與品質獲得關注。Sonic 支援多種語言、從短樣本進行語音克隆,以及對語音風格、語速和情感的精細控制。其 API 專為即時應用設計——類似代理和語音助手所需的串流、雙向語音互動。2024 年,他們推出了 Sonic 2,進一步提升自然度並擴展語言支援,同時維持其成為標誌性的超低延遲特性。公司也提供本地部署選項,這對無法將語音資料傳送至第三方伺服器的醫療、金融和政府客戶來說至關重要。
Cartesia 於 2024 年完成 A 輪融資,籌得 2700 萬美元,投資方包括 Lightspeed Venture Partners 和 Index Ventures。對一家成立不到兩年的公司來說,這反映了市場對 SSM 方法與團隊背景的信心。他們的定位獨特:雖然 ElevenLabs 主要在語音品質與廣度上競爭,而 Deepgram 則專注於語音轉文字速度,Cartesia 則主張「最快即時語音生成」的主張,並圍繞此建立所有產品。賭注在於,當 AI 代理成為軟體的主要介面——以對話取代按鈕與表單——語音層必須像人類對話者一樣快速,而 SSMs 是實現此目標的架構。
在某種意義上,Cartesia 的存在本身就是對規模定律和數據主導時代中架構創新是否仍具重要性的公投。他們的答案毫無疑問是肯定的。同樣的計算資源可以買到一個優秀的 Transformer 語音模型,也可以買到一個更快、更高效的 SSM 語音模型——而在即時應用中,這種效率差距直接轉化為用戶體驗。無論 Cartesia 是否保持獨立公司或因其技術被收購,他們已經證明 SSM 架構家族在商業應用上的潛力遠超研究實驗室。