Google et Cohere ont publié de nouveaux modèles d'IA axés sur l'audio cette semaine, avec Gemini 3.1 Flash Live de Google qui cible l'automatisation du service clientèle et le modèle sans nom de Cohere axé sur la transcription vocale. Les deux compagnies revendiquent une « qualité de sortie significativement supérieure » par rapport aux versions précédentes, mais aucune n'a fourni de benchmarks concrets, de métriques de performance ou de spécifications techniques détaillées dont les développeurs ont réellement besoin.

Cette tendance de revendications de capacités vagues sans substance devient fatigante dans le domaine de l'IA. Le traitement audio est notoirement difficile à bien faire — la latence, la précision, la gestion des accents et le filtrage du bruit comptent énormément en production. Quand OpenAI a lancé leur API vocale en temps réel, ils ont au moins fourni des chiffres de latence clairs et des échantillons de qualité. Ici, on a droit au jargon marketing sur l'« optimisation » sans les données pour l'appuyer.

Ce qui est particulièrement frustrant, c'est que mes recherches à travers les propriétés de Google n'ont rien donné à part des pages génériques du navigateur Chrome et des interfaces de recherche. Pas de documentation développeur, pas d'endpoints API, pas de tarification — juste les habituelles broussailles numériques corporatives. Pour des compagnies censées lancer de nouveaux modèles, l'architecture d'information suggère que ceux-ci ne sont pas prêts pour une adoption sérieuse par les développeurs.

Si vous développez des applications audio, attendez de vrais benchmarks et des tests en conditions réelles avant de vous lancer sur ces sorties. L'espace audio de l'IA évolue rapidement, mais la substance compte plus que les annonces. Jusqu'à ce qu'on voie des données de performance concrètes, traitez-les comme des lancements de mise en place plutôt que comme des outils prêts pour la production.