Zubnet AI学习Wiki › Deepgram
公司

Deepgram

别名:Nova 语音转文字、Aura 文字转语音
语音AI公司正在构建快速且准确的语音识别和文本转语音API。他们的Nova模型在准确率上与OpenAI的Whisper竞争,甚至经常超越它,同时在实时应用中运行速度显著更快。

为什么重要

Deepgram 证明了一家初创公司可以利用端到端深度学习从零开始构建语音识别系统,并在准确性上与谷歌、亚马逊和微软直接竞争,同时在速度上超越它们。他们以开发者为中心的 API 方法将现代基础设施模式引入语音 AI,使将语音转录添加到应用程序中变得像通过 Stripe 添加支付功能一样简单。随着对话式 AI 代理逐渐成为主流,Deepgram 正将其定位为关键的语音基础设施层——使以语音为核心的 AI 在实际生产中真正运作的底层管道。

深度解析

Deepgram 由 Scott Stephenson、Noah Shutty 和 Adam Sypniewski 于 2015 年创立,三人均为密歇根大学从事暗物质探测研究的物理学家。粒子物理与语音识别之间的联系听起来可能有些奇怪,但实际上两者都涉及从大量嘈杂数据中提取微弱信号。Stephenson 看到一个机会,将端到端深度学习应用于语音识别,而当时大多数商业系统仍依赖于混合架构,需要手动调整声学模型和语言模型。公司于 2016 年通过 Y Combinator 加速器,随后多年低调发展,构建技术并获得企业合同。到 2022 年,他们已筹集超过 8500 万美元资金,其中包括由 Tiger Global 领投的 7200 万美元 B 轮融资,每年处理数十亿分钟的音频。

技术赌注

Deepgram 从零开始使用端到端深度学习构建语音识别系统,而非基于现有开源模型。这使他们能够掌控整个流程,并针对企业客户真正关心的方面进行优化:速度、特定领域词汇的准确性、说话人分离以及在客户自有数据上微调模型的能力。他们于 2023 年推出的 Nova 模型系列,经过 Nova-2 和 Nova-3 的迭代,始终在准确率基准测试中领先,同时保持行业最低的延迟之一。特别是 Nova-3 以其在真实音频(如电话、会议、嘈杂环境)上的表现而闻名,而学术基准测试往往无法准确预测实际表现。他们还推出了 Aura 文字转语音系统,定位为完整的语音人工智能平台。

开发者优先策略

与 Nuance 等较早的语音公司通过漫长的销售周期和定制集成向企业销售不同,Deepgram 首先瞄准开发者。他们的 API 清晰易用,文档质量高,定价透明且基于使用量——按音频分钟计费,无最低消费,无需签订合同。这种策略使他们能够建立大量开发者社区,开发者先在个人项目中尝试 Deepgram,随后将其引入公司。这一策略与 Twilio 在通信领域和 Stripe 在支付领域的做法类似:通过打造极佳的开发者体验,让自下而上的采用率成为销售工作的主力。他们还为有严格数据主权要求的客户提供本地部署选项,这对医疗、金融和政府行业尤为重要。

与巨头和开源竞争

Deepgram 运营在 AI 最具竞争力的领域之一。Google、Amazon、Microsoft 和 IBM 都提供由巨额研发投入支持的语音转文本 API。OpenAI 于 2022 年发布的开源 Whisper 让每个开发者都能免费使用一个足够好的转录模型。面对这些竞争者,Deepgram 依靠速度、准确性、定制化和整体开发者体验进行竞争。他们的实时流式转录速度始终快于大型云提供商,而他们能够在特定领域(如医学术语、法律术语、品牌名称)上训练定制模型,使他们在通用模型难以应对的企业场景中占据优势。开源的威胁确实存在,但被夸大了:在大规模运行 Whisper 时实现低延迟、高可用性和企业功能并不容易,大多数公司更愿意支付托管服务费用。

语音人工智能平台布局

Deepgram 正稳步从纯转录扩展为更广泛的语音人工智能平台。通过新增文字转语音(Aura)、语音代理以及情感分析和主题检测等音频智能功能,他们正将自己定位为对话式人工智能的基础设施层。这一时机是经过深思熟虑的——随着能够进行真实电话对话的 AI 代理变得可行,需要有人提供快速且准确的语音处理管道,而 Deepgram 希望成为这个提供商。2024 年他们额外筹集的 4700 万美元资金部分用于这一扩展,使总融资额超过 1.3 亿美元。

相关概念

← 所有术语
← 深度伪造 开发者工具 →
ESC