Deepgram 於 2015 年由 Scott Stephenson、Noah Shutty 和 Adam Sypniewski 三位物理學家共同創立,他們原本在密西根大學從事暗物質探測研究。粒子物理與語音辨識之間的關聯聽起來似乎很奇怪,但實際上兩者都涉及從大量雜訊資料中提取微弱訊號。Stephenson 看到一個機會,當時大多數商業系統仍依賴較舊的混合架構,結合手動調整的聲學模型與語言模型,而他則決定應用端到端深度學習於語音辨識。公司於 2016 年通過 Y Combinator 加速器,之後數年間相對不為人知,持續建立技術並拿下企業合約。到 2022 年,他們已籌集超過 8500 萬美元資金,包括由 Tiger Global 領投的 7200 萬美元 B 輪融資,並每年處理數十億分鐘的音訊。
Deepgram 從頭開始使用端到端深度學習建立語音辨識,而不是基於現有的開源模型。這讓他們能掌控整個流程,並針對企業客戶真正關心的重點進行優化:速度、特定領域詞彙的準確度、說話者分離(speaker diarization),以及在客戶自身資料上微調模型的能力。他們於 2023 年推出的 Nova 模型家族,經過 Nova-2 和 Nova-3 的迭代,持續在準確度基準測試中名列前茅,同時保持業界最低的延遲之一。Nova-3 特別因其在真實音訊上的表現而聞名,例如電話對話、會議、嘈雜環境,而學術基準測試往往無法預測實際表現。他們也推出了 Aura 文字轉語音系統,將自身定位為完整的語音 AI 平台。
較早的語音公司如 Nuance 透過長周期的銷售流程和客製整合向企業銷售,而 Deepgram 則選擇先針對開發者。他們的 API 簡潔易用,文件說明良好,計費方式透明且以使用量為基礎——按音訊分鐘計費,無最低門檻,無合約限制。這種策略讓他們建立起大量開發者社群,這些開發者最初用 Deepgram 進行個人專案,之後將其引入公司內。這種策略與 Twilio 在通訊領域和 Stripe 在支付領域的做法相似:讓開發者體驗如此良好,從而實現自下而上的採用,為銷售團隊省去許多工作。他們也提供本地部署選項,以符合對資料主權有嚴格要求的客戶需求,這在醫療、金融和政府領域尤為重要。
Deepgram 處於 AI 最具競爭性的領域之一。Google、Amazon、Microsoft 和 IBM 都提供由龐大研發預算支持的語音轉文字 API。OpenAI 於 2022 年釋出的開源 Whisper,讓每位開發者都能免費使用足夠好的轉錄模型。在這樣的環境下,Deepgram 以速度、準確度、客製化和整體開發者體驗作為競爭優勢。他們的即時串流轉錄速度持續快於大型雲端服務商,而他們能在特定領域(如醫學術語、法律用語、品牌名稱)上訓練客製模型,使其在企業應用場景中具備優勢,因為通用模型在這些場合往往表現不佳。開源的威脅確實存在,但被誇大了:在規模上運行 Whisper,並實現低延遲、高可用性與企業功能,看起來簡單卻實際困難,因此大多數公司寧願支付費用使用管理服務。
Deepgram 逐漸從純粹的語音轉文字擴展為更廣泛的語音 AI 平台。透過加入文字轉語音(Aura)、語音代理以及語音智慧功能(如情緒分析和主題檢測),他們將自己定位為對話式 AI 的基礎設施層。這個時機是刻意選擇的——當能進行真實電話對話的 AI 代理變得可行時,就必須有人提供快速且準確的語音處理管道,而 Deepgram 希望成為這家供應商。2024 年他們額外籌集的 4700 萬美元資金部分就是用於這項擴張,使總融資金額超過 1.3 億美元。