Cartesia a été fondée en 2023 par une équipe de chercheurs de Stanford, dont Karan Goel, Albert Gu et d'autres profondément impliqués dans le développement des modèles d'espace d'états (SSM). Albert Gu est largement reconnu comme l'architecte des architectures S4 et Mamba — les percées en modélisation de séquences qui ont démontré que les transformers n'étaient pas la seule voie viable pour l'apprentissage profond sur des données séquentielles. Cartesia est née de cette recherche avec une thèse précise : les SSM pouvaient offrir une voix IA avec une latence fondamentalement plus faible et de meilleures caractéristiques de diffusion en continu que les approches basées sur les transformers, et le moment était venu de commercialiser cet avantage.
Le cœur technique de l'approche de Cartesia est véritablement différent de la plupart des entreprises de voix IA. Alors que des concurrents comme ElevenLabs et PlayHT s'appuient sur des architectures transformer (ou des systèmes hybrides qui reposent fortement sur les mécanismes d'attention), les modèles Sonic de Cartesia sont nativement construits sur une architecture SSM. La conséquence pratique est significative : les SSM traitent les séquences en temps linéaire par rapport à la longueur, contre la mise à l'échelle quadratique de l'attention standard. Pour la génération vocale en particulier, cela signifie que Sonic peut produire de la parole avec une latence de bout en bout inférieure à 100 millisecondes — assez rapide pour que dans une application d'IA conversationnelle, la réponse semble instantanée plutôt que « légèrement en retard ». Il ne s'agit pas d'une amélioration marginale ; c'est la différence entre un assistant vocal qui donne l'impression d'un appel téléphonique et un qui donne l'impression de parler à une machine.
Cartesia a lancé Sonic comme modèle phare, et il a rapidement attiré l'attention tant pour sa vitesse que pour sa qualité. Sonic prend en charge plusieurs langues, le clonage vocal à partir d'échantillons courts et un contrôle fin du style de parole, du rythme et de l'émotion. Leur API est conçue pour les applications en temps réel — le type d'interactions vocales bidirectionnelles en continu dont les agents et assistants vocaux ont besoin. En 2024, ils ont lancé Sonic 2, qui a amélioré le naturel et élargi la prise en charge linguistique tout en maintenant la latence ultra-faible qui était devenue leur signature. L'entreprise offre également une option de déploiement sur site, ce qui compte pour les clients en santé, finance et gouvernement qui ne peuvent pas envoyer d'audio à des serveurs tiers.
Cartesia a levé 27 millions de dollars en série A en 2024, avec des investisseurs incluant Lightspeed Venture Partners et Index Ventures. Pour une entreprise de moins de deux ans à l'époque, cela reflétait la confiance du marché tant dans l'approche SSM que dans le pedigree de l'équipe. Leur positionnement est distinctif : alors qu'ElevenLabs rivalise principalement sur la qualité vocale et l'étendue de l'offre, et que Deepgram mise sur la vitesse de transcription, Cartesia revendique la « génération vocale en temps réel la plus rapide » et construit tout autour de cela. Le pari est que, à mesure que les agents IA deviennent l'interface principale des logiciels — remplaçant les boutons et les formulaires par la conversation — la couche vocale doit être aussi rapide qu'un interlocuteur humain, et les SSM sont l'architecture qui permet d'y arriver.
L'existence de Cartesia est, d'une certaine manière, un référendum sur la question de savoir si l'innovation architecturale compte encore à une époque dominée par les lois de mise à l'échelle et les données. Leur réponse est sans équivoque : oui. La même quantité de calcul qui vous donne un bon modèle vocal transformer vous donne un modèle vocal SSM plus rapide et plus efficace — et dans les applications en temps réel, cet écart d'efficacité se traduit directement en expérience utilisateur. Que Cartesia reste une entreprise indépendante ou soit acquise pour sa technologie, elle a déjà prouvé que la famille d'architectures SSM a des applications commerciales bien au-delà du laboratoire de recherche.