Mistral Medium 3.5 लॉन्च: dense 128B, 256k कॉन्टेक्स्ट, SWE-Bench Verified पर 77.6%

Mistral ने Mistral Medium 3.5 जारी किया है, 256k कॉन्टेक्स्ट विंडो वाला 128B dense मॉडल, साथ में Vibe (एक CLI coding एजेंट) और Remote Agents (असिंक्रोनस क्लाउड-आधारित कोडिंग सेशन्स, CLI या Le Chat से स्पॉन हो सकते हैं)। मॉडल मल्टीमॉडल है — Mistral ने विज़न एनकोडर शून्य से प्रशिक्षित किया ताकि वह विभिन्न चित्र आकार और अनुपात सँभाल सके — CLIP की रिट्रोफ़िट नहीं। वेट्स HuggingFace पर खुले रूप में जाते हैं। Mistral 3.5 को अपना पहला "flagship merged" मॉडल बताता है, यह कॉर्पोरेट शब्द खोला जाना चाहिए।

मुख्य बेंचमार्क SWE-Bench Verified पर 77.6% है, τ³-Telecom पर 91.4। पहला नंबर ही दबाव-परीक्षण लायक़ है, क्योंकि Verified स्कोर harness-निर्भर हैं: open-hands, swe-agent, और mini-swe — हर एक एक ही मॉडल से अलग पास दर देता है। Mistral ने harness नहीं बताया, और यही गायब टुकड़ा है। ईमानदार तुलना के लिए: Claude Sonnet 4.5 Anthropic के प्रकाशित harness के तहत (समानांतर टेस्ट-टाइम compute के साथ) SWE-Bench Verified पर 82.0% पर है; अज्ञात कॉन्फ़िगरेशन के तहत Mistral का 77.6% प्रतिस्पर्धी है पर सीधे तुलनीय नहीं। 256k कॉन्टेक्स्ट के साथ 128B पर dense (MoE नहीं) आर्किटेक्चर इस पैमाने पर असामान्य है — इस स्केल पर अधिकांश labs sparse routing पर चले गए हैं। Dense लगातार latency और सरल deployment देता है; क़ीमत पैरामीटर दक्षता है।

Vibe और Remote Agents असली उत्पाद कहानी हैं। Vibe स्थानीय रूप से CLI coding agent के रूप में चलता है। Remote Agents इसे अलग-थलग sandboxes में लंबे चलने वाले क्लाउड सेशन्स तक बढ़ाता है — और महत्वपूर्ण रूप से, स्थानीय सेशन्स को क्लाउड पर "टेलीपोर्ट" किया जा सकता है, इतिहास और स्थिति संरक्षित रखते हुए। एकीकरण बिंदु: GitHub, Linear, Jira, Sentry, Slack, Teams। Mistral उसी agent-और-असिंक-execution आकार में अभिसरित हो रहा है जिसे Devin, Claude Code, और Codex बना रहे हैं, पर नीचे ओपन वेट्स के साथ और EU संप्रभुता के एक कोण के साथ जो यूरोपीय बिल्डरों और विनियमित उद्योगों के लिए मायने रखता है। 77% श्रेणी के SWE-Bench मॉडल के साथ ओपन-वेट agent बुनियादी ढाँचा closed-weight समकक्षों से अलग प्रस्ताव है।

वेट्स खींचें और 77.6% पर भरोसा करने से पहले अपने ख़ुद के harness से चलाएँ। अगर आप EU में हैं या डेटा-रेज़िडेंसी प्रतिबंध हैं, यह एक frontier-class coding agent के लिए सबसे विश्वसनीय ओपन-वेट विकल्प है। अगर आप CLI टूलिंग स्पेक्ट्रम पर हैं तो Vibe आज़माने लायक़ है — Le Chat के माध्यम से Remote Agents लंबे स्वायत्त कार्यों पर लागत वक्र बदलते हैं। Dense आर्किटेक्चर का मतलब है कि प्रति token inference एक समकक्ष MoE से भारी है; अगर आप self-host करते हैं तो उसके लिए बजट रखें।

Mistral Medium 3.5 लॉन्च: dense 128B, 256k कॉन्टेक्स्ट, SWE-Bench Verified पर 77.6%

और समाचार