Cartesia fue fundada en 2023 por un equipo de investigadores de Stanford, incluyendo a Karan Goel, Albert Gu y otros que habían estado profundamente involucrados en el desarrollo de state space models (SSMs). Albert Gu es ampliamente reconocido como el arquitecto de las arquitecturas S4 y Mamba — los avances en modelado de secuencias que demostraron que los transformers no eran el único camino viable para el deep learning en datos secuenciales. Cartesia surgió de esa investigación con una tesis específica: los SSMs podían entregar IA de voz con una latencia fundamentalmente más baja y mejores características de streaming que los enfoques basados en transformers, y el momento de comercializar esa ventaja era ahora.
El núcleo técnico del enfoque de Cartesia es genuinamente diferente de la mayoría de las empresas de IA de voz. Mientras competidores como ElevenLabs y PlayHT construyen sobre arquitecturas transformer (o sistemas híbridos que dependen fuertemente de mecanismos de attention), los modelos Sonic de Cartesia están construidos nativamente sobre arquitectura SSM. La consecuencia práctica es significativa: los SSMs procesan secuencias en tiempo lineal respecto a la longitud, versus el escalado cuadrático del attention estándar. Para la generación de voz específicamente, esto significa que Sonic puede producir habla con latencia de extremo a extremo por debajo de 100 milisegundos — lo suficientemente rápido como para que en una aplicación de IA conversacional, la respuesta se sienta instantánea en lugar de "ligeramente retrasada". Esta no es una mejora marginal; es la diferencia entre un asistente de voz que se siente como una llamada telefónica y uno que se siente como hablar con una máquina.
Cartesia lanzó Sonic como su modelo insignia, y rápidamente ganó atención tanto por su velocidad como por su calidad. Sonic soporta múltiples idiomas, clonación de voz a partir de muestras cortas y control detallado sobre el estilo de habla, ritmo y emoción. Su API está diseñada para aplicaciones en tiempo real — el tipo de interacciones de voz bidireccionales en streaming que los agentes y asistentes de voz necesitan. En 2024, lanzaron Sonic 2, que mejoró la naturalidad y expandió el soporte de idiomas mientras mantenía la latencia ultra baja que se había convertido en su firma. La empresa también ofrece una opción de despliegue on-premise, lo cual importa para clientes de salud, finanzas y gobierno que no pueden enviar audio a servidores de terceros.
Cartesia recaudó $27 millones en una Serie A en 2024, con inversores incluyendo a Lightspeed Venture Partners e Index Ventures. Para una empresa de menos de dos años en ese momento, eso reflejó la confianza del mercado tanto en el enfoque SSM como en el pedigrí del equipo. Su posicionamiento es distintivo: mientras ElevenLabs compite principalmente en calidad y amplitud de voz, y Deepgram en velocidad de transcripción, Cartesia está reclamando la posición de "generación de voz en tiempo real más rápida" y construyendo todo alrededor de ello. La apuesta es que a medida que los agentes de IA se conviertan en la interfaz principal del software — reemplazando botones y formularios con conversación — la capa de voz necesita ser tan rápida como un interlocutor humano, y los SSMs son la arquitectura que te lleva ahí.
La existencia de Cartesia es, de alguna manera, un referéndum sobre si la innovación arquitectónica aún importa en una era dominada por las leyes de escalado y los datos. Su respuesta es inequívocamente sí. La misma cantidad de cómputo que te compra un buen modelo transformer de voz te compra un modelo SSM de voz más rápido y eficiente — y en aplicaciones en tiempo real, esa brecha de eficiencia se traduce directamente en experiencia de usuario. Ya sea que Cartesia siga como empresa independiente o sea adquirida por su tecnología, ya han demostrado que la familia de arquitecturas SSM tiene piernas comerciales mucho más allá del laboratorio de investigación.