Cartesia：定义与含义 — AI 维基

基于状态空间模型（SSM）架构而非transformers的语音AI初创公司。他们的Sonic模型实现了超低延迟语音生成，使实时对话式AI首次真正自然。

为什么重要

Cartesia 的重要性在于他们证明了状态空间模型不仅仅是学术界的奇思妙想，而是一种适用于实时语音 AI 的商业可行架构。他们低于 100 毫秒的延迟首次使真正自然的对话式 AI 成为可能，弥合了“与机器人对话”和“与真人对话”之间的差距。随着行业向以语音为核心的 AI 代理转变，Cartesia 在流媒体速度方面的架构优势可能使他们成为其他所有企业构建的基础设施层。

深度解析

Cartesia 于 2023 年由斯坦福大学的一支研究团队创立，其中包括 Karan Goel、Albert Gu 等曾深度参与状态空间模型（State Space Models, SSMs）开发的研究人员。Albert Gu 被广泛认为是 S4 和 Mamba 架构的设计师——这些序列建模的突破性成果证明了 Transformer 并非处理序列数据的唯一可行路径。Cartesia 从该研究中独立出来，秉持一个明确的论点：SSMs 可以实现比基于 Transformer 的方法具有根本性更低延迟和更优流媒体特性的语音 AI，而现在正是将其商业化的时候。

状态空间模型的押注

Cartesia 的技术核心与大多数语音 AI 公司截然不同。虽然 ElevenLabs 和 PlayHT 等竞争对手基于 Transformer 架构（或以注意力机制为主的混合系统）构建，Cartesia 的 Sonic 模型则原生基于 SSM 架构。这种实际差异意义重大：SSMs 的处理时间与序列长度呈线性关系，而标准注意力机制的处理时间呈二次方增长。对于语音生成而言，这意味着 Sonic 可以实现端到端延迟低于 100 毫秒的语音生成——在对话式 AI 应用中，响应速度会感觉即时而非“略微延迟”。这不是边际改进；这是语音助手感觉像电话通话，还是感觉像与机器对话的区别。

Sonic 与产品套件

Cartesia 将 Sonic 作为其旗舰模型推出，其速度和质量迅速引起关注。Sonic 支持多种语言，可以从短样本中克隆语音，并对语调、语速和情感进行细粒度控制。他们的 API 专为实时应用设计——这种流媒体、双向语音交互正是代理和语音助手所需的功能。2024 年，他们发布了 Sonic 2，提升了自然度并扩展了语言支持，同时保持了其标志性的超低延迟。公司还提供本地部署选项，这对无法将音频发送到第三方服务器的医疗、金融和政府客户而言至关重要。

融资与定位

Cartesia 在 2024 年的 A 轮融资中筹集了 2700 万美元，投资者包括 Lightspeed Venture Partners 和 Index Ventures。对于一家成立不到两年的公司而言，这反映了市场对 SSM 方法和团队背景的信心。他们的定位独具特色：ElevenLabs 主要以语音质量和覆盖面竞争，而 Deepgram 则以转录速度见长，Cartesia 则专注于“最快的实时语音生成”主张，并围绕这一主张构建所有产品。他们的赌注是，随着 AI 代理成为软件的主要界面——用对话取代按钮和表单——语音层必须像人类对话者一样快，而 SSM 正是实现这一目标的架构。

为什么架构至关重要

在某种程度上，Cartesia 的存在本身就是对在以规模定律和数据为主导的时代，架构创新是否仍然重要的一个投票。他们的答案是明确的肯定。同样数量的计算资源，可以为你带来一个优质的 Transformer 语音模型，也可以带来更快、更高效的 SSM 语音模型——而在实时应用中，这种效率差距直接转化为用户体验。无论 Cartesia 是否保持独立或被收购，他们已经证明 SSM 架构家族在商业上具有远超实验室的潜力。

Cartesia