Cohere a lancé Transcribe, un modèle de reconnaissance vocale automatique qui atteint un taux d'erreur de mots moyen de 5,42 % sur les benchmarks standards, revendiquant la première place du Open ASR Leaderboard de Hugging Face. Le modèle utilise un encodeur Conformer jumelé à un décodeur Transformer léger, supportant 14 langues incluant l'anglais, le chinois, le japonais et l'arabe. Dans des évaluations humaines directes, les annotateurs ont préféré les transcriptions de Cohere 78 % du temps contre IBM Granite et 64 % contre Whisper Large v3 d'OpenAI.
Ceci représente la première grande poussée de Cohere au-delà de la génération de texte vers le traitement vocal, un mouvement stratégique alors que les entreprises ont de plus en plus besoin de traiter des données audio à grande échelle. L'architecture Conformer fait du sens ici—combiner les CNN pour les caractéristiques acoustiques locales avec les Transformers pour le contexte global adresse mieux les vrais défis ASR que les mécanismes d'attention purs. Cependant, la contrainte du modèle à des segments audio de 35 secondes pour le contenu long format expose les limitations mémoire qui affligent encore les systèmes vocaux en production.
Ce qui est notable, c'est l'approche « qualité plutôt que quantité » de Cohere avec seulement 14 langues, en compétition directe contre le support de 100+ langues de Whisper. Les benchmarks semblent impressionnants, mais l'ASR d'entreprise vit dans la réalité désordonnée de la parole accentuée, du bruit de fond et du jargon spécialisé que les ensembles de tests standards ne capturent pas. Les métriques de préférence humaine sont plus révélatrices—les vrais utilisateurs peuvent distinguer des différences de qualité que les scores WER ratent.
Pour les développeurs qui construisent des applications vocales, ceci vous donne une autre option solide au-delà d'OpenAI et ElevenLabs, surtout si vous avez besoin d'un déploiement auto-hébergé. La limitation de découpage de 35 secondes signifie que vous aurez encore besoin de pipelines de prétraitement pour l'audio long, mais les gains de précision pourraient justifier la charge d'ingénierie. Ça vaut la peine de tester sur vos vraies données—les benchmarks survivent rarement au contact avec l'audio de production.
