Deepgram：定義與含義 — AI 維基

為什麼重要

Deepgram 證明了一家新創公司可以從頭開始建立語音辨識，使用端到端深度學習技術，並在準確度方面與 Google、Amazon 和 Microsoft 正面競爭，同時在速度上超越他們。他們以開發者為先的 API 方式，將現代基礎設施模式引入語音 AI，讓將語音轉文字功能加入應用程式變得像使用 Stripe 加入付款功能一樣簡單。隨著對話式 AI 代理程式逐漸普及，Deepgram 正定位自己為關鍵的語音基礎設施層——讓以語音為先的 AI 在實際生產環境中真正運作的基礎建設。

深度解析

Deepgram 於 2015 年由 Scott Stephenson、Noah Shutty 和 Adam Sypniewski 三位物理學家共同創立，他們原本在密西根大學從事暗物質探測研究。粒子物理與語音辨識之間的關聯聽起來似乎很奇怪，但實際上兩者都涉及從大量雜訊資料中提取微弱訊號。Stephenson 看到一個機會，當時大多數商業系統仍依賴較舊的混合架構，結合手動調整的聲學模型與語言模型，而他則決定應用端到端深度學習於語音辨識。公司於 2016 年通過 Y Combinator 加速器，之後數年間相對不為人知，持續建立技術並拿下企業合約。到 2022 年，他們已籌集超過 8500 萬美元資金，包括由 Tiger Global 領投的 7200 萬美元 B 輪融資，並每年處理數十億分鐘的音訊。

技術賭注

Deepgram 從頭開始使用端到端深度學習建立語音辨識，而不是基於現有的開源模型。這讓他們能掌控整個流程，並針對企業客戶真正關心的重點進行優化：速度、特定領域詞彙的準確度、說話者分離（speaker diarization），以及在客戶自身資料上微調模型的能力。他們於 2023 年推出的 Nova 模型家族，經過 Nova-2 和 Nova-3 的迭代，持續在準確度基準測試中名列前茅，同時保持業界最低的延遲之一。Nova-3 特別因其在真實音訊上的表現而聞名，例如電話對話、會議、嘈雜環境，而學術基準測試往往無法預測實際表現。他們也推出了 Aura 文字轉語音系統，將自身定位為完整的語音 AI 平台。

以開發者為先的策略

較早的語音公司如 Nuance 透過長周期的銷售流程和客製整合向企業銷售，而 Deepgram 則選擇先針對開發者。他們的 API 簡潔易用，文件說明良好，計費方式透明且以使用量為基礎——按音訊分鐘計費，無最低門檻，無合約限制。這種策略讓他們建立起大量開發者社群，這些開發者最初用 Deepgram 進行個人專案，之後將其引入公司內。這種策略與 Twilio 在通訊領域和 Stripe 在支付領域的做法相似：讓開發者體驗如此良好，從而實現自下而上的採用，為銷售團隊省去許多工作。他們也提供本地部署選項，以符合對資料主權有嚴格要求的客戶需求，這在醫療、金融和政府領域尤為重要。

與巨頭與開源競爭

Deepgram 處於 AI 最具競爭性的領域之一。Google、Amazon、Microsoft 和 IBM 都提供由龐大研發預算支持的語音轉文字 API。OpenAI 於 2022 年釋出的開源 Whisper，讓每位開發者都能免費使用足夠好的轉錄模型。在這樣的環境下，Deepgram 以速度、準確度、客製化和整體開發者體驗作為競爭優勢。他們的即時串流轉錄速度持續快於大型雲端服務商，而他們能在特定領域（如醫學術語、法律用語、品牌名稱）上訓練客製模型，使其在企業應用場景中具備優勢，因為通用模型在這些場合往往表現不佳。開源的威脅確實存在，但被誇大了：在規模上運行 Whisper，並實現低延遲、高可用性與企業功能，看起來簡單卻實際困難，因此大多數公司寧願支付費用使用管理服務。

語音 AI 平台戰略

Deepgram 逐漸從純粹的語音轉文字擴展為更廣泛的語音 AI 平台。透過加入文字轉語音（Aura）、語音代理以及語音智慧功能（如情緒分析和主題檢測），他們將自己定位為對話式 AI 的基礎設施層。這個時機是刻意選擇的——當能進行真實電話對話的 AI 代理變得可行時，就必須有人提供快速且準確的語音處理管道，而 Deepgram 希望成為這家供應商。2024 年他們額外籌集的 4700 萬美元資金部分就是用於這項擴張，使總融資金額超過 1.3 億美元。

Deepgram