Cartesia a publié deux modèles cette semaine et leur a accolé à tous deux une étiquette audacieuse: Sonic-3.5 pour la synthèse vocale et Ink-2 pour la reconnaissance vocale, présentés comme les modèles de diffusion en continu numéro un pour chacune des tâches. Sonic-3.5 est la vedette, un modèle de synthèse vocale que l'entreprise qualifie de synthèse vocale en continu la plus naturelle selon la préférence humaine, avec un délai de 82ms avant le premier audio, de nouvelles voix multilingues et la prise en charge de clones de voix personnels. Ink-2 est la moitié plus discrète, un modèle de reconnaissance vocale doté d'une détection de tours de parole intégrée, la fonction qui permet à un système de savoir quand un locuteur a réellement fini de parler.
La prétention au premier rang mérite une nuance, et c'est le genre de nuance qu'il vaut la peine d'énoncer clairement. Le classement de synthèse vocale d'Artificial Analysis, vers lequel pointe l'annonce même de Cartesia, place Sonic 3.5 au quatrième rang global, avec un Elo de 1205, derrière Fun-Realtime-TTS, Gemini 3.1 Flash TTS et un modèle en préversion de recherche. La couronne n'est donc réelle qu'à l'intérieur d'un cadrage plus étroit, le plus rapide ou le meilleur parmi les modèles de diffusion en continu en production sur un axe particulier, et non le sommet indépendant du classement. Quand un lancement s'ouvre sur un superlatif que le tableau de pointage cité ne soutient pas, le geste honnête est de lire au-delà du superlatif.
Lisez au-delà et la publication demeure véritablement intéressante, parce que les éléments qui tiennent sont ceux qui comptent pour les agents vocaux. Un délai de 82ms avant le premier audio est assez bas pour qu'une réponse commence avant qu'une personne perçoive une pause, et la détection de tours de parole dans la moitié reconnaissance vocale est ce qui empêche un agent de parler par-dessus quelqu'un ou de rester dans le silence. Réunis, TTS, STT et détection de tours de parole chez un seul fournisseur sont les primitives d'une boucle vocale en duplex intégral, la chose que chaque entreprise bâtissant un agent téléphonique ou un assistant en direct assemble actuellement à partir de pièces.
Voilà le vrai signal ici, et c'est un signal d'approvisionnement plus qu'un signal de référence. La pile d'agents vocaux se consolide: au lieu de coller un fournisseur de TTS à un fournisseur distinct de STT à une heuristique distincte de détection de tours de parole, un développeur peut prendre la boucle à un seul endroit, réglée pour fonctionner de concert. Que Sonic-3.5 soit premier ou quatrième sur tel ou tel classement importe moins que de savoir si l'aller-retour semble instantané et si le modèle sait quand s'arrêter. À ce compte, le chiffre de latence est celui à surveiller, et le rang au classement est celui à prendre avec un grain de sel.
