Resemble AI a été fondée en 2019 par Zohaib Ahmed à Toronto, au Canada. Ahmed, un ingénieur logiciel avec de l'expérience dans des entreprises, s'est passionné pour le potentiel de la synthèse vocale neuronale après avoir expérimenté avec les premiers modèles de synthèse vocale par apprentissage profond. L'intuition fondatrice était que le clonage vocal — la création d'une réplique synthétique de la voix d'une personne spécifique à partir d'échantillons audio relativement courts — était sur le point de devenir radicalement plus accessible, et que quelqu'un devait construire à la fois les outils et les garde-fous. Dès ses débuts, Resemble s'est positionnée comme une entreprise prenant au sérieux la nature à double usage de la voix IA.
Le produit principal de Resemble vous permet de créer une voix IA personnalisée à partir d'aussi peu que quelques minutes de parole enregistrée. Leur pipeline gère la pile complète : clonage vocal, synthèse texte-parole, conversion parole-à-parole et génération vocale en temps réel avec des latences suffisamment faibles pour les applications en direct. La qualité s'est améliorée de manière spectaculaire depuis le lancement — leurs derniers modèles produisent des résultats qui sont, dans de nombreux cas, indiscernables de la parole humaine dans des tests à l'aveugle. Ils offrent à la fois un studio web pour les utilisateurs non techniques et une API complète pour les développeurs qui intègrent la voix dans leurs produits. Localize, leur outil de conversion parole-à-parole, permet aux créateurs de contenu de doubler de l'audio dans d'autres langues tout en préservant les caractéristiques vocales du locuteur original, ce qui a trouvé preneur dans les médias, le divertissement et l'apprentissage en ligne.
Ce qui distingue véritablement Resemble dans l'espace de la voix IA, c'est leur investissement précoce et soutenu dans la détection des hypertrucages et l'authentification vocale. En 2022, ils ont lancé Resemble Detect, un réseau de neurones entraîné pour distinguer la parole générée par IA de l'audio humain réel. Ils ont également été pionniers du filigrane audio neuronal — l'intégration d'identifiants imperceptibles dans la parole générée qui peuvent ensuite être détectés pour vérifier la provenance. Ce n'était pas une réponse à une crise de relations publiques ; c'était inscrit dans la feuille de route du produit dès le départ. Dans un secteur où plusieurs concurrents ont été embarrassés par l'utilisation de leur technologie à des fins de fraude, d'usurpation d'identité et de contenu non consenti, l'approche proactive de Resemble en matière de sécurité est devenue un véritable avantage concurrentiel, particulièrement auprès des clients d'entreprise qui doivent démontrer une utilisation responsable de l'IA.
Resemble a levé environ 13 millions de dollars, un montant modeste par rapport à certains concurrents en voix IA, mais l'entreprise a été efficiente en capital et concentrée. Sa clientèle comprend des studios de jeux vidéo qui ont besoin de dialogues dynamiques pour les personnages non joueurs, des entreprises médiatiques effectuant de la localisation à grande échelle, des organisations de santé générant de l'audio destiné aux patients et des centres d'appels développant des expériences vocales de marque. Le fait d'avoir son siège au Canada — plus précisément à Toronto, qui est discrètement devenu l'un des bassins de talents les plus profonds au monde en recherche en apprentissage automatique — a constitué un avantage stratégique pour le recrutement. Ils rivalisent avec ElevenLabs sur la qualité et l'expérience développeur, avec PlayHT sur la personnalisation, et avec Amazon Polly et Google TTS sur la fiabilité en entreprise.
La question plus large à laquelle Resemble aide l'industrie à répondre est : à qui appartient une voix? À mesure que la parole synthétique se banalise, la capacité de prouver qu'une voix a été générée avec consentement, qu'elle porte des métadonnées de provenance et que les clones non autorisés peuvent être détectés devient non seulement une fonctionnalité, mais une nécessité réglementaire. Le pari de Resemble est que les entreprises de voix IA qui traitent la sécurité comme une réflexion après coup seront éventuellement obligées de la greffer sous la pression des régulateurs et des poursuites judiciaires, alors que les entreprises qui l'ont intégrée dès le départ seront déjà là où le marché exige que tout le monde finisse.