Mistral Medium 3.5 : poids ouverts, 128B dense, 77,6 % SWE-Bench Verified

Mistral a poussé Medium 3.5 sur Hugging Face cette semaine, poids ouverts sous leur licence : 128B paramètres denses, contexte 256k, 77,6 % sur SWE-Bench Verified, 91,4 sur τ³-Telecom. Ce qui compte pour les builders qui font tourner des agents auto-hébergés, c'est la combinaison — backbone capable de coder, qu'on peut pull, fine-tuner sur sa codebase, et servir sur ses propres GPU. Le frontier fermé garde l'avance, mais l'écart sur la résolution d'issues longue traîne s'est tellement comprimé que les choix d'hébergement redeviennent pertinents.

Deux choix d'architecture à noter. D'abord, dense et non mixture-of-experts : Medium 3.5 bat Qwen3.5 397B-A17B (MoE, ~17B actifs) sur SWE-Bench malgré moins de poids en absolu. Le langage « modèle fusionné » que Mistral emploie veut dire qu'ils ont effondré le découpage précédent entre Mistral instruct et Devstral coding-specialist dans un seul jeu de poids couvrant instruct, raisonnement, et code — ops plus simples pour les builders qui détestaient jongler avec deux endpoints. Ensuite, le 77,6 % est en single-pass sur le sous-ensemble Verified de 500 tâches ; le 82 % de Sonnet 4.5 venait avec parallel test-time compute, donc la comparaison réelle est plus serrée que la manchette le laisse entendre. Ce que Mistral n'a pas divulgué : l'histoire de contamination, ni si le harness Vibe post-traite — c'est la prochaine question à poser avant de porter Medium 3.5 dans une boucle de prod.

La surface Vibe est l'autre moitié de cette release. Vibe était déjà l'agent CLI de codage de Mistral — même catégorie que Claude Code, Composer de Cursor, Aider — mais Remote Agents en fait un vrai concurrent Cursor/Devin : exécution cloud sandboxée de tâches longues pendant qu'on travaille ailleurs, sessions lançables depuis le CLI ou Le Chat. Lecture ecosystem : les labs open-weights ne se contentent plus de shipper le modèle en laissant la surface agent aux wrappers. Mistral ferme la boucle eux-mêmes, comme Anthropic a shippé Claude Code aux côtés de Sonnet 4.5. Pour les builders, ça veut dire que la stack ouverte est maintenant crédible de bout en bout : poids hébergeables, surface agent utilisable directement, ou détachable pour intégration par morceaux. Le moat des labs fermés se rétrécit au test-time compute, à l'intégration d'outils plus profonde, et à ce que le pipeline d'évals pre-release CAISI confère.

Move pratique : si tu fais tourner Devstral 2 ou un coding specialist non-Mistral derrière ton agent, Medium 3.5 mérite un swap de bench sur ton propre eval set cette semaine. Un seul jeu de poids simplifie le deploy, 256k de contexte gère les fenêtres de codebase réelle, et Vibe Remote Agents sont utilisables tels quels si tu ne veux pas construire le sandboxing toi-même. Si tu es déjà sur API frontier fermée et que tu surveilles l'économie au token, un modèle 128B dense est assez petit pour que les maths du self-hosting tiennent sur un nœud 8xH100 — c'est le calcul qui manquait au pitch des agents open-weights.

Mistral Medium 3.5 : poids ouverts, 128B dense, 77,6 % SWE-Bench Verified

Plus de nouvelles