Zubnet AIAprenderWiki › Deepgram
Empresas

Deepgram

También conocido como: Nova reconocimiento de voz, Aura síntesis de voz
Empresa de IA de voz que construye API rápidas y precisas de reconocimiento de voz y texto a voz. Sus modelos Nova compiten con y frecuentemente superan a Whisper de OpenAI en precisión mientras funcionan significativamente más rápido para aplicaciones en tiempo real.

Por qué importa

Deepgram demostró que una startup podía construir reconocimiento de voz desde cero usando deep learning de extremo a extremo y competir cara a cara con Google, Amazon y Microsoft en precisión mientras los superaba en velocidad. Su enfoque de API orientada al desarrollador trajo patrones de infraestructura moderna a la IA de voz, haciendo tan fácil agregar transcripción a una app como agregar pagos con Stripe. A medida que los agentes de IA conversacional se vuelven mainstream, Deepgram se está posicionando como la capa crítica de infraestructura de voz debajo — la plomería que hace que la IA de voz realmente funcione en producción.

En profundidad

Deepgram fue fundada en 2015 por Scott Stephenson, Noah Shutty y Adam Sypniewski, tres físicos que habían estado trabajando en detección de materia oscura en la Universidad de Michigan. La conexión entre física de partículas y reconocimiento de voz es menos rara de lo que suena — ambas involucran extraer señales débiles de enormes cantidades de datos ruidosos. Stephenson vio una oportunidad para aplicar deep learning de extremo a extremo al reconocimiento de voz en un momento en que la mayoría de los sistemas comerciales aún dependían de arquitecturas híbridas más antiguas con modelos acústicos ajustados a mano y modelos de lenguaje ensamblados. La empresa pasó por Y Combinator en 2016, luego pasó años en relativa oscuridad, construyendo su tecnología y cerrando contratos empresariales. Para 2022, habían recaudado más de $85 millones, incluyendo una Serie B de $72 millones liderada por Tiger Global, y procesaban miles de millones de minutos de audio anualmente.

La apuesta técnica

Deepgram construyó su reconocimiento de voz desde cero usando deep learning de extremo a extremo, en lugar de construir sobre modelos de código abierto existentes. Esto les dio control sobre toda la pipeline y les permitió optimizar para cosas que los clientes empresariales realmente les importan: velocidad, precisión en vocabulario específico del dominio, diarización de hablantes y la capacidad de hacer fine-tuning de modelos con los propios datos del cliente. Su familia de modelos Nova, que se lanzó en 2023 e iteró a través de Nova-2 y Nova-3, consistentemente encabezó los benchmarks de precisión mientras mantenía una de las latencias más bajas de la industria. Nova-3 en particular se hizo conocido por su rendimiento en audio del mundo real — llamadas telefónicas, reuniones, entornos ruidosos — donde los benchmarks académicos frecuentemente fallan en predecir el rendimiento real. También construyeron Aura, un sistema de texto a voz, posicionándose como una plataforma completa de IA de voz.

Estrategia de desarrolladores primero

Donde las empresas de voz más antiguas como Nuance vendían a empresas a través de largos ciclos de venta e integraciones personalizadas, Deepgram fue primero por los desarrolladores. Su API es limpia, su documentación es buena y los precios son transparentes y basados en uso — paga por minuto de audio, sin mínimos, sin contratos requeridos. Este enfoque les permitió construir una gran comunidad de desarrolladores que probaron Deepgram para proyectos personales y luego lo llevaron a sus empresas. La estrategia refleja lo que Twilio hizo para comunicaciones y lo que Stripe hizo para pagos: hacer la experiencia del desarrollador tan buena que la adopción bottom-up hace tu trabajo de ventas por ti. También ofrecen despliegue on-premise para clientes con requisitos estrictos de soberanía de datos, lo cual importa mucho en salud, finanzas y gobierno.

Compitiendo con gigantes y código abierto

Deepgram opera en una de las esquinas más competitivas de la IA. Google, Amazon, Microsoft e IBM todos ofrecen API de speech-to-text respaldadas por presupuestos masivos de I+D. Whisper de OpenAI, lanzado como código abierto en 2022, dio a cada desarrollador acceso gratuito a un modelo de transcripción lo suficientemente bueno. Contra esto, Deepgram compite en velocidad, precisión, personalización y la experiencia general del desarrollador. Su transcripción en streaming en tiempo real es consistentemente más rápida que la de los grandes proveedores de nube, y su capacidad de entrenar modelos personalizados en dominios específicos — terminología médica, jerga legal, nombres de marcas — les da una ventaja para casos de uso empresarial donde los modelos genéricos tienen dificultades. La amenaza del código abierto es real pero algo exagerada: ejecutar Whisper a escala con baja latencia, alta disponibilidad y funciones empresariales es más difícil de lo que parece, y la mayoría de las empresas preferirían pagar por un servicio gestionado.

La jugada de plataforma de IA de voz

Deepgram ha estado expandiendo constantemente de la transcripción pura a una plataforma más amplia de IA de voz. Con la adición de texto a voz (Aura), agentes de voz y funciones de inteligencia de audio como análisis de sentimiento y detección de temas, se están posicionando como la capa de infraestructura para IA conversacional. El timing es deliberado — a medida que los agentes de IA que pueden sostener conversaciones telefónicas reales se vuelven viables, alguien necesita proporcionar la pipeline de voz rápida y precisa debajo, y Deepgram quiere ser ese proveedor. Sus $47 millones en financiamiento adicional recaudados en 2024 estaban parcialmente dirigidos a esta expansión, llevando el financiamiento total a más de $130 millones.

Conceptos relacionados

← Todos los términos
← Deepfakes Herramientas para desarrolladores →
ESC