Mistral Medium 3.5 arrive : dense 128B, contexte 256k, 77,6 % sur SWE-Bench Verified

Mistral a publié Mistral Medium 3.5, un modèle dense de 128B avec une fenêtre de contexte de 256k, accompagné de Vibe (un agent codant en CLI) et Remote Agents (sessions de codage cloud asynchrones, lançables depuis le CLI ou Le Chat). Le modèle est multimodal avec un encodeur vision que Mistral a entraîné depuis zéro pour gérer des tailles d'image et des ratios variables — pas un retrofit CLIP. Les poids sortent ouverts sur HuggingFace. Mistral décrit 3.5 comme leur premier modèle « flagship merged », un terme corporate à déballer.

Le benchmark vedette est 77,6 % sur SWE-Bench Verified, avec 91,4 sur τ³-Telecom. Le premier chiffre est celui à stress-tester, parce que les scores Verified dépendent du harnais : open-hands, swe-agent et mini-swe donnent chacun des taux de réussite différents pour le même modèle. Mistral n'a pas divulgué le harnais, et c'est la pièce manquante. Pour comparaison honnête : Claude Sonnet 4.5 est à 82,0 % sur SWE-Bench Verified (avec compute parallèle au moment de test) sous le harnais publié d'Anthropic; le 77,6 % de Mistral sous configuration inconnue est compétitif mais pas directement comparable. Le contexte 256k plus l'architecture dense (pas MoE) à 128B est inhabituel — la plupart des labos à cette échelle ont basculé vers le routing creux. Le dense donne une latence consistante et un déploiement plus simple; le coût est l'efficience paramétrique.

Vibe et Remote Agents sont la vraie histoire produit. Vibe tourne en local comme agent codant en CLI. Remote Agents étend ça à des sessions cloud longue durée dans des sandboxes isolés — et critiquement, les sessions locales peuvent être téléportées vers le cloud en préservant historique et état. Points d'intégration : GitHub, Linear, Jira, Sentry, Slack, Teams. Mistral converge vers la même forme agent-et-exécution-asynchrone que Devin, Claude Code et Codex ont construite, mais avec des poids ouverts dessous et un angle souveraineté EU qui compte pour les développeurs européens et les industries régulées. Une infra agent à poids ouverts avec un modèle classe 77 % SWE-Bench, c'est une proposition différente des équivalents à poids fermés.

Télécharge les poids et passe-les dans ton propre harnais avant de faire confiance au 77,6 %. Si tu es en EU ou avec des contraintes de résidence des données, c'est l'option poids ouverts la plus crédible pour un agent codant classe frontière. Vibe vaut un essai si tu es sur le spectre outillage CLI — Remote Agents via Le Chat change la courbe de coût des longues tâches autonomes. L'architecture dense signifie que l'inférence est plus lourde par token qu'un MoE équivalent; budgétise pour ça si tu auto-héberges.

Mistral Medium 3.5 arrive : dense 128B, contexte 256k, 77,6 % sur SWE-Bench Verified

Plus de nouvelles