OpenMOSS, le labo IA open source affilié à l'Université Fudan et associé à MOSI.AI et au Shanghai Innovation Institute, a sorti MOSS-Audio aujourd'hui, une famille de modèles audio fondationnels couvrant la transcription de la parole, la compréhension du son environnemental, l'analyse musicale, et ce qu'ils appellent raisonnement audio temporel, le tout dans une seule architecture plutôt que l'habituelle pile de modèles spécialisés. Il y a quatre variantes : tailles 4B et 8B, chacune en configurations Instruct et Thinking, pour un total d'environ 4,6 G et 8,6 G de paramètres. L'architecture est une pile à trois composants : un encodeur audio fonctionnant à une résolution temporelle de 12,5 Hz, un adaptateur de modalité, et un dorsal de modèle de langage Qwen3-4B ou Qwen3-8B. Les poids sont sur HuggingFace à huggingface.co/collections/OpenMOSS-Team/moss-audio, le code sur GitHub à github.com/OpenMOSS/MOSS-Audio. Cette sortie est un point de donnée de plus dans l'histoire labo-chinois-poids-ouverts contre frontière-fermée-occidentale qui a été le motif dominant des sorties de modèles en 2026.

La pièce techniquement intéressante est la capacité temporelle, qui est la partie qui n'existe pas dans les modèles audio fermés de pointe actuels. MOSS-Audio insère des tokens marqueurs de temps explicites à intervalles fixes dans les représentations de cadre audio pendant le pré-entraînement, ce qui veut dire que le modèle apprend à lier le contenu aux horodatages absolus nativement plutôt que comme une étape d'inférence post-hoc. L'effet en aval est que le modèle peut répondre « qu'a dit le locuteur à la marque de 2 minutes » avec l'horodatage intégré dans le texte de la réponse, sans passe d'alignement séparée. Concrètement sur l'ASR avec horodatage, MOSS-Audio-8B-Instruct atteint 35,77 AAS sur AISHELL-1 et 131,61 AAS sur LibriSpeech, ce qui sur les chiffres publiés est dramatiquement mieux que Qwen3-Omni-30B à 833,66 et Gemini-3.1-Pro à 708,24. Plus bas est mieux pour AAS, donc c'est un vrai écart, pas une tranche marketing. Sur la compréhension audio générale le modèle 8B-Thinking moyenne 71,08 % sur MMAU/MMAU-Pro/MMAR/MMSU, devant Step-Audio-R1 à 70,67 % (malgré que Step soit 33B), Qwen3-Omni-30B à 67,91 %, MiMo-Audio-7B à 62,97 %, et Kimi-Audio-7B à 61,14 %. L'évaluation de description de la parole, notée par un LLM-juge sur 13 dimensions incluant genre, accent, émotion et ton, a 8B-Instruct en tête sur 11 de ces 13 avec une moyenne de 3,7252. Le taux d'erreur de 11,30 caractères sur l'évaluation ASR à 12 dimensions est le plus bas dans l'ensemble de comparaison.

L'implication plus large est que la frontière des modèles audio open-weight a dépassé la frontière fermée sur les tâches temporelles spécifiquement, tandis que la frontière plus large de la compréhension audio s'est resserrée. Un modèle ouvert 8B basé sur Qwen3 qui bat un modèle Step-Audio 33B sur MMAU est le genre de mise à jour de courbe d'efficacité qui compte pour quiconque bâtit des pipelines audio en production, parce que ça change directement le calcul de coût d'inférence par tâche. Le fait que MOSS-Audio dépasse aussi Gemini-3.1-Pro (un fleuron fermé) sur l'ASR avec horodatage est plus difficile à écarter comme du gaming de benchmark parce que la précision des horodatages est mécaniquement mesurable. Le bémol sur tout ça est que les chiffres de benchmark viennent du papier OpenMOSS et n'ont pas encore été reproduits indépendamment; quiconque fait la première réplication indépendante sera le point de donnée porteur. L'autre bémol est que les benchmarks audio sont encore un écosystème plus petit et plus bruyant que les benchmarks texte, MMAU-Pro et MMSU sont relativement neufs, et l'écart entre victoire de benchmark et utilité en production est réel. Mais le palier sub-10G-paramètres de modèles audio à poids ouverts est maintenant genuinement compétitif avec le palier classe 30B fermé sur les tâches qui ont des évaluations mesurables, ce qui n'était pas vrai il y a 12 mois.

Pour les bâtisseurs qui travaillent avec l'audio, trois choses pratiques changent. Premièrement, si tu fais de la parole-au-texte avec alignement d'horodatage comme étape séparée (transcription Whisper suivie d'alignement forcé), MOSS-Audio offre l'option de faire les deux dans un seul modèle, ce qui simplifie la pipeline et est probablement plus rapide bout-en-bout à 8B. Deuxièmement, la capacité audio multi-modale (id de locuteur, émotion, son environnemental, style musical) dans un seul modèle veut dire que tu peux réduire le nombre de modèles dans des produits de pipeline audio qui chaînent actuellement un modèle de transcription, un classificateur d'émotion, et un détecteur d'événements sonores; le compromis est que les modèles monolithiques sont plus difficiles à échanger pour un composant, donc c'est un fit pour des produits greenfield plus que pour des modernisations incrémentales. Troisièmement, la licence à poids ouverts (l'article ne spécifie pas la licence exacte, alors vérifie le GitHub avant tout usage commercial) rend ça déployable sur l'infrastructure du client pour des cas d'usage où envoyer de l'audio à une API fermée n'est pas acceptable. Les notes vocales en santé, la transcription en environnement classifié (le débat politique en direct vient juste d'être réaffiné aujourd'hui par la lettre des employés Google-Pentagone), et les assistants sur appareil ont maintenant tous une option à poids ouverts crédible dans la classe de taille 4-8B. Si MOSS-Audio tient sous la réplication de benchmark indépendante est la question à suivre dans les 30 prochains jours; si oui, le paysage compétitif des modèles audio pour le reste de 2026 est significativement différent de ce qu'il était la semaine dernière.