OpenMOSS, Fudan University से संबद्ध और MOSI.AI और Shanghai Innovation Institute के साथ साझेदार ओपन-सोर्स AI लैब, ने आज MOSS-Audio जारी किया, एक ऑडियो फाउंडेशन मॉडल परिवार जो भाषण ट्रांसक्रिप्शन, पर्यावरणीय ध्वनि समझ, संगीत विश्लेषण, और जिसे वे समय-संवेदी ऑडियो तर्क कहते हैं उसे कवर करता है, सब एक ही आर्किटेक्चर में बजाय विशेष मॉडलों के सामान्य ढेर के। चार वेरिएंट हैं: 4B और 8B आकार, प्रत्येक Instruct और Thinking कॉन्फ़िगरेशन में, कुल लगभग 4.6B और 8.6B पैरामीटर। आर्किटेक्चर तीन-घटक स्टैक है: 12.5 Hz टेम्पोरल रिज़ॉल्यूशन पर चलने वाला ऑडियो एनकोडर, मोडलिटी एडेप्टर, और Qwen3-4B या Qwen3-8B भाषा-मॉडल बैकबोन। वज़न HuggingFace पर huggingface.co/collections/OpenMOSS-Team/moss-audio पर हैं, कोड GitHub पर github.com/OpenMOSS/MOSS-Audio पर है। रिलीज़ ओपन-वेट चीनी-लैब-बनाम-बंद-पश्चिमी-फ्रंटियर कहानी में एक और डेटा बिंदु है जो 2026 मॉडल रिलीज़ में प्रमुख पैटर्न रहा है।
तकनीकी रूप से दिलचस्प हिस्सा समय-संवेदी क्षमता है, जो वर्तमान फ्रंटियर बंद-स्रोत ऑडियो मॉडलों में मौजूद नहीं है। MOSS-Audio प्रीट्रेनिंग के दौरान ऑडियो फ्रेम प्रतिनिधित्व में निश्चित अंतराल पर स्पष्ट समय-मार्कर टोकन सम्मिलित करता है, जिसका मतलब है कि मॉडल पोस्ट-हॉक अनुमान चरण के रूप में नहीं बल्कि मूल रूप से सामग्री को पूर्ण टाइमस्टैम्प से बांधना सीखता है। डाउनस्ट्रीम प्रभाव यह है कि मॉडल «वक्ता ने 2 मिनट के निशान पर क्या कहा» का उत्तर दे सकता है, टाइमस्टैम्प उत्तर पाठ में एम्बेडेड है, बिना अलग संरेखण पास के। ठोस रूप से टाइमस्टैम्प ASR पर, MOSS-Audio-8B-Instruct AISHELL-1 पर 35.77 AAS और LibriSpeech पर 131.61 AAS हिट करता है, जो जारी किए गए संख्याओं पर Qwen3-Omni-30B के 833.66 और Gemini-3.1-Pro के 708.24 की तुलना में नाटकीय रूप से बेहतर है। AAS में कम बेहतर है, इसलिए यह एक वास्तविक अंतर है, मार्केटिंग-अनुकूल टुकड़ा नहीं। सामान्य ऑडियो समझ पर 8B-Thinking मॉडल MMAU/MMAU-Pro/MMAR/MMSU पर औसत 71.08% है, Step-Audio-R1 के 70.67% से आगे (Step 33B होने के बावजूद), Qwen3-Omni-30B के 67.91%, MiMo-Audio-7B के 62.97%, और Kimi-Audio-7B के 61.14% से। भाषण कैप्शनिंग मूल्यांकन, लिंग, उच्चारण, भावना और स्वर सहित 13 आयामों में LLM-न्यायाधीश द्वारा स्कोर किया गया, 8B-Instruct उन 13 में से 11 पर 3.7252 औसत के साथ अग्रणी है। 12-आयाम ASR मूल्यांकन पर 11.30 चरित्र त्रुटि दर तुलना सेट में सबसे कम है।
व्यापक निहितार्थ यह है कि ओपन-वेट ऑडियो मॉडल फ्रंटियर विशेष रूप से समय-संवेदी कार्यों पर बंद-फ्रंटियर से आगे निकल गई, जबकि व्यापक ऑडियो-समझ फ्रंटियर सख्त हो गई। MMAU पर 33B Step-Audio मॉडल को हराने वाला Qwen3-आधारित 8B ओपन मॉडल उत्पादन ऑडियो पाइपलाइन बनाने वाले किसी के लिए मायने रखने वाली दक्षता-वक्र अपडेट का प्रकार है, क्योंकि यह सीधे प्रति-कार्य अनुमान-लागत गणित बदलता है। MOSS-Audio टाइमस्टैम्प ASR पर Gemini-3.1-Pro (एक बंद-स्रोत फ्लैगशिप) से भी आगे निकलता है यह तथ्य बेंचमार्क गेमिंग के रूप में खारिज करना कठिन है क्योंकि टाइमस्टैम्प सटीकता यांत्रिक रूप से मापने योग्य है। इस सबका योग्यतादायक यह है कि बेंचमार्क संख्याएं OpenMOSS पेपर से आती हैं और अभी तक स्वतंत्र रूप से पुनरुत्पादित नहीं हुई हैं; जो पहली स्वतंत्र प्रतिकृति करेगा वह भार-वहन डेटा बिंदु होगा। दूसरा योग्यतादायक यह है कि ऑडियो बेंचमार्क अभी भी टेक्स्ट बेंचमार्क की तुलना में छोटा और शोर वाला पारिस्थितिकी तंत्र है, MMAU-Pro और MMSU अपेक्षाकृत नए हैं, और बेंचमार्क जीत और उत्पादन उपयोगिता के बीच अंतर वास्तविक है। लेकिन ऑडियो मॉडल का सब-10B-पैरामीटर ओपन-वेट स्तर अब उन कार्यों पर 30B-वर्ग बंद स्तर के साथ वास्तव में प्रतिस्पर्धी है जिनके पास मापने योग्य मूल्यांकन हैं, जो 12 महीने पहले सच नहीं था।
ऑडियो के साथ काम करने वाले बिल्डरों के लिए, तीन व्यावहारिक चीजें बदलती हैं। पहला, यदि आप टाइमस्टैम्प संरेखण को अलग चरण (Whisper ट्रांसक्रिप्शन के बाद मजबूर संरेखण) के रूप में चलाते हैं, तो MOSS-Audio एक मॉडल में दोनों करने का विकल्प प्रदान करता है, जो पाइपलाइन को सरल करता है और 8B पर एंड-टू-एंड संभवतः तेज़ है। दूसरा, एकल मॉडल में बहु-मोडल ऑडियो क्षमता (वक्ता आईडी, भावना, पर्यावरणीय ध्वनि, संगीत शैली) का अर्थ है कि आप ऑडियो-पाइपलाइन उत्पादों में मॉडल गिनती कम कर सकते हैं जो वर्तमान में एक ट्रांसक्रिप्शन मॉडल, एक भावना वर्गीकरणकर्ता, और एक ध्वनि-घटना डिटेक्टर को चेन करते हैं; ट्रेड-ऑफ यह है कि मोनोलिथिक मॉडल एक घटक के लिए स्वैप करना कठिन हैं, इसलिए यह वृद्धिशील रिट्रोफिट से अधिक ग्रीनफील्ड उत्पादों के लिए फिट है। तीसरा, ओपन-वेट लाइसेंसिंग (लेख सटीक लाइसेंस निर्दिष्ट नहीं करता है, इसलिए किसी भी वाणिज्यिक उपयोग से पहले GitHub की जांच करें) इसे ग्राहक बुनियादी ढांचे पर तैनात करने योग्य बनाता है उपयोग मामलों के लिए जहां बंद API को ऑडियो भेजना स्वीकार्य नहीं है। हेल्थकेयर वॉइस नोट्स, वर्गीकृत-वातावरण ट्रांसक्रिप्शन (लाइव नीति बहस आज Google-Pentagon कर्मचारी पत्र द्वारा फिर से तेज़ की गई), और ऑन-डिवाइस सहायक सभी अब 4-8B आकार वर्ग में एक विश्वसनीय ओपन-वेट विकल्प रखते हैं। क्या MOSS-Audio स्वतंत्र बेंचमार्क प्रतिकृति के तहत खड़ा रहता है यह अगले 30 दिनों में ट्रैक करने का प्रश्न है; यदि यह करता है, तो 2026 के बाकी समय के लिए ऑडियो-मॉडल प्रतिस्पर्धी परिदृश्य पिछले सप्ताह से उल्लेखनीय रूप से अलग है।
