Deepgram a ete fondee en 2015 par Scott Stephenson, Noah Shutty et Adam Sypniewski, trois physiciens qui travaillaient sur la detection de matiere noire a l'Universite du Michigan. Le lien entre la physique des particules et la reconnaissance vocale est moins bizarre qu'il n'y parait — les deux domaines impliquent d'extraire des signaux faibles a partir d'enormes quantites de donnees bruitees. Stephenson a vu une occasion d'appliquer l'apprentissage profond de bout en bout a la reconnaissance vocale a une epoque ou la plupart des systemes commerciaux reposaient encore sur des architectures hybrides plus anciennes avec des modeles acoustiques ajustes manuellement et des modeles linguistiques assembles les uns aux autres. L'entreprise est passee par Y Combinator en 2016, puis a passe des annees dans une relative obscurite, developpant sa technologie et decrochant des contrats entreprise. D'ici 2022, ils avaient leve plus de 85 millions de dollars, incluant une Serie B de 72 millions de dollars menee par Tiger Global, et traitaient des milliards de minutes d'audio annuellement.
Deepgram a bati sa reconnaissance vocale de zero en utilisant l'apprentissage profond de bout en bout, plutot que de s'appuyer sur des modeles open source existants. Cela leur a donne le controle de l'ensemble du pipeline et leur a permis d'optimiser les choses qui comptent reellement pour les clients entreprise : la vitesse, la precision sur le vocabulaire specifique a un domaine, la diarisation des locuteurs et la capacite d'affiner les modeles sur les propres donnees d'un client. Leur famille de modeles Nova, lancee en 2023 et iteree a travers Nova-2 et Nova-3, a systematiquement domine les classements de precision tout en maintenant certaines des latences les plus basses de l'industrie. Nova-3 en particulier est devenu repute pour ses performances sur de l'audio du monde reel — appels telephoniques, reunions, environnements bruyants — la ou les benchmarks academiques echouent souvent a predire les performances reelles. Ils ont aussi construit Aura, un systeme de synthese vocale, se positionnant comme une plateforme d'IA vocale complete.
La ou les anciennes entreprises de reconnaissance vocale comme Nuance vendaient aux entreprises a travers de longs cycles de vente et des integrations sur mesure, Deepgram a d'abord vise les developpeurs. Leur API est propre, leur documentation est bonne, et la tarification est transparente et basee sur l'utilisation — payez par minute d'audio, sans minimum, sans contrat obligatoire. Cette approche leur a permis de batir une grande communaute de developpeurs qui ont essaye Deepgram pour des projets personnels et l'ont ensuite apporte dans leurs entreprises. La strategie reflete ce que Twilio a fait pour les communications et ce que Stripe a fait pour les paiements : rendre l'experience developpeur tellement bonne que l'adoption par la base fait le travail de vente pour vous. Ils offrent egalement le deploiement sur site pour les clients ayant des exigences strictes de souverainete des donnees, ce qui est crucial en sante, en finance et dans le secteur gouvernemental.
Deepgram opere dans l'un des coins les plus concurrentiels de l'IA. Google, Amazon, Microsoft et IBM offrent tous des API de reconnaissance vocale soutenues par des budgets de R&D massifs. Whisper d'OpenAI, publie en open source en 2022, a donne a chaque developpeur un acces gratuit a un modele de transcription suffisamment bon. Face a cela, Deepgram rivalise sur la vitesse, la precision, la personnalisation et l'experience developpeur globale. Leur transcription en temps reel par flux est systematiquement plus rapide que celle des grands fournisseurs infonuagiques, et leur capacite a entrainer des modeles personnalises sur des domaines specifiques — terminologie medicale, jargon juridique, noms de marques — leur confere un avantage pour les cas d'utilisation entreprise ou les modeles generiques echouent. La menace de l'open source est reelle mais quelque peu surestimee : faire tourner Whisper a grande echelle avec une faible latence, une haute disponibilite et des fonctionnalites entreprise est plus difficile qu'il n'y parait, et la plupart des entreprises prefererent payer pour un service gere.
Deepgram s'est progressivement etendu de la pure transcription vers une plateforme d'IA vocale plus large. Avec l'ajout de la synthese vocale (Aura), des agents vocaux et des fonctionnalites d'intelligence audio comme l'analyse de sentiments et la detection de sujets, ils se positionnent comme la couche d'infrastructure pour l'IA conversationnelle. Le timing est delibere — a mesure que les agents IA capables de tenir de vraies conversations telephoniques deviennent viables, quelqu'un doit fournir le pipeline vocal rapide et precis en dessous, et Deepgram veut etre ce fournisseur. Leurs 47 millions de dollars de financement supplementaire leves en 2024 visaient en partie cette expansion, portant le financement total a plus de 130 millions de dollars.