A Cartesia foi fundada em 2023 por uma equipe de pesquisadores de Stanford, incluindo Karan Goel, Albert Gu e outros profundamente envolvidos no desenvolvimento de state space models (SSMs). Albert Gu é amplamente reconhecido como o arquiteto das arquiteturas S4 e Mamba — as descobertas em modelagem de sequências que demonstraram que transformers não eram o único caminho viável para deep learning em dados sequenciais. A Cartesia nasceu dessa pesquisa com uma tese específica: SSMs poderiam entregar IA de voz com latência fundamentalmente mais baixa e melhores características de streaming do que abordagens baseadas em transformer, e o momento de comercializar essa vantagem era agora.
O núcleo técnico da abordagem da Cartesia é genuinamente diferente da maioria das empresas de IA de voz. Enquanto concorrentes como ElevenLabs e PlayHT constroem sobre arquiteturas transformer (ou sistemas híbridos que dependem fortemente de mecanismos de attention), os modelos Sonic da Cartesia são construídos nativamente sobre arquitetura SSM. A consequência prática é significativa: SSMs processam sequências em tempo linear em relação ao comprimento, versus a escala quadrática do attention padrão. Para geração de voz especificamente, isso significa que o Sonic pode produzir fala com latência ponta a ponta abaixo de 100 milissegundos — rápido o suficiente para que, em uma aplicação de IA conversacional, a resposta pareça instantânea em vez de "ligeiramente atrasada". Isso não é uma melhoria marginal; é a diferença entre um assistente de voz que parece uma ligação telefônica e um que parece conversar com uma máquina.
A Cartesia lançou o Sonic como seu modelo principal, e ele rapidamente ganhou atenção tanto por sua velocidade quanto por sua qualidade. O Sonic suporta múltiplos idiomas, clonagem de voz a partir de amostras curtas e controle granular sobre estilo de fala, ritmo e emoção. Sua API é projetada para aplicações em tempo real — o tipo de interações de voz bidireccionais e em streaming que agentes e assistentes de voz precisam. Em 2024, lançaram o Sonic 2, que melhorou a naturalidade e expandiu o suporte a idiomas mantendo a latência ultrabaixa que se tornou sua marca registrada. A empresa também oferece uma opção de implantação on-premises, o que importa para clientes de saúde, finanças e governo que não podem enviar áudio para servidores de terceiros.
A Cartesia levantou US$ 27 milhões em uma Série A em 2024, com investidores incluindo Lightspeed Venture Partners e Index Ventures. Para uma empresa com menos de dois anos na época, isso refletiu a confiança do mercado tanto na abordagem SSM quanto no pedigree da equipe. Seu posicionamento é distinto: enquanto a ElevenLabs compete principalmente em qualidade e amplitude de voz, e a Deepgram em velocidade de transcrição, a Cartesia está apostando na reivindicação de "geração de voz em tempo real mais rápida" e construindo tudo em torno disso. A aposta é que, conforme agentes de IA se tornam a interface principal para software — substituindo botões e formulários por conversa — a camada de voz precisa ser tão rápida quanto um interlocutor humano, e SSMs são a arquitetura que leva você até lá.
A existência da Cartesia é, de certa forma, um referendo sobre se inovação arquitetural ainda importa em uma era dominada por leis de escala e dados. A resposta deles é inequivocamente sim. A mesma quantidade de compute que lhe dá um bom modelo de voz transformer lhe dá um modelo de voz SSM mais rápido e eficiente — e em aplicações em tempo real, essa diferença de eficiência se traduz diretamente em experiência do usuário. Seja a Cartesia permanecendo uma empresa independente ou sendo adquirida por sua tecnologia, eles já provaram que a família de arquiteturas SSM tem pernas comerciais muito além do laboratório de pesquisa.