Cohere a lancé un modèle de transcription vocale open-source avec 2 milliards de paramètres, conçu spécifiquement pour les développeurs qui veulent auto-héberger sans matériel de niveau entreprise. Le modèle supporte 14 langues et roule sur des GPU grand public, se positionnant comme une alternative axée sur la confidentialité aux services de transcription basés sur le cloud comme l'API Whisper d'OpenAI ou Speech-to-Text de Google.
C'est un positionnement intelligent dans un domaine bondé. Alors que Whisper d'OpenAI domine la transcription open-source, il n'a pas été conçu pour les applications temps réel ou les environnements aux ressources limitées. L'approche ciblée de Cohere — modèle plus petit, transcription seulement, compatibilité avec le matériel grand public — s'attaque à de vrais points douloureux de déploiement. À 2 milliards de paramètres, c'est à peu près la taille du modèle de base de Whisper mais conçu sur mesure pour l'efficacité plutôt que la polyvalence.
Ce qui manque notamment dans l'annonce : des benchmarks comparant la précision à Whisper, des mesures de latence, ou des exigences GPU spécifiques au-delà de "grand public". Sans données de performance, les développeurs ne peuvent pas évaluer si les compromis de commodité en valent la peine. Le support de 14 langues soulève aussi des questions sur la qualité par langue — les modèles spécialisés ont souvent de la difficulté avec les langues moins bien dotées en ressources.
Pour les équipes qui développent des applications vocales, ceci pourrait résoudre le casse-tête de l'auto-hébergement qui a gardé plusieurs coincés sur les services API. Si la précision tient le coup, avoir un modèle que vous pouvez déployer localement sans envoyer de données audio à des tiers est vraiment précieux. Le vrai test sera de savoir si 2 milliards de paramètres peuvent égaler la qualité que les développeurs attendent des modèles plus gros.
