Mistral Medium 3.5: pesos abiertos 128B densos, 77,6% en SWE-Bench Verified

Mistral subió Medium 3.5 a Hugging Face esta semana con pesos abiertos bajo su licencia: 128B parámetros densos, contexto 256k, 77,6% en SWE-Bench Verified, 91,4 en τ³-Telecom. Lo que importa para builders que corren agentes auto-hospedados es la combinación — un backbone capaz de codear que puedes descargar, fine-tunear sobre tu codebase, y servir en tus propias GPUs. El frontier cerrado sigue liderando, pero la brecha en resolución de issues de cola larga se comprimió lo suficiente para que las decisiones de hosting vuelvan a importar.

Dos elecciones arquitectónicas a marcar. Primero, denso y no mixture-of-experts: Medium 3.5 le gana a Qwen3.5 397B-A17B (MoE, ~17B activos) en SWE-Bench a pesar de tener menos pesos absolutos. El término «modelo fusionado» que usa Mistral significa que colapsaron la división previa entre Mistral instruct y Devstral coding-specialist en un solo conjunto de pesos cubriendo instruct, razonamiento y código — ops más simples para builders que odiaban malabarear dos endpoints. Segundo, el 77,6% es single-pass sobre el subconjunto Verified de 500 tareas; el 82% de Sonnet 4.5 vino con parallel test-time compute, así que la comparación real es más cerrada de lo que sugiere el titular. Lo que Mistral no reveló es la historia de contaminación ni si el harness de Vibe post-procesa — esa es la próxima pregunta antes de portar Medium 3.5 a un loop de producción.

La superficie Vibe es la otra mitad de este release. Vibe ya era el agente CLI de codeo de Mistral — misma categoría que Claude Code, Composer de Cursor, Aider — pero Remote Agents lo convierte en competidor real de Cursor/Devin: ejecución cloud con sandbox de tareas largas mientras trabajas en otra cosa, sesiones lanzables desde CLI o Le Chat. La lectura de ecosistema: los labs open-weights ya no se limitan a shipear el modelo y dejarle la superficie agent a los wrappers. Mistral cierra el loop ellos mismos, como Anthropic shipeó Claude Code junto a Sonnet 4.5. Para builders, eso significa que la stack abierta ahora es creíble de punta a punta: pesos hospedables, superficie agent usable directamente, o despegable para integración por piezas. El moat de los labs cerrados se reduce al test-time compute, integración de tools más profunda, y a lo que el pipeline de evals pre-release CAISI confiera.

Movida práctica: si estás corriendo Devstral 2 o un coding specialist no-Mistral detrás de tu agente, Medium 3.5 vale un swap de benchmark sobre tu propio eval set esta semana. Un solo conjunto de pesos simplifica el deploy, 256k de contexto maneja ventanas de codebase reales, y Vibe Remote Agents son usables tal cual si no quieres construir sandboxing tú mismo. Si ya estás en API frontier cerrada y miras la economía por token, un modelo 128B denso es lo bastante chico para que la matemática del self-hosting cuadre en un nodo 8xH100 — ese es el cálculo que faltaba al pitch de agentes open-weights.

Mistral Medium 3.5: pesos abiertos 128B densos, 77,6% en SWE-Bench Verified

Más noticias