Mistral Medium 3.5 aterriza: denso 128B, contexto 256k, 77,6% en SWE-Bench Verified

Mistral ha lanzado Mistral Medium 3.5, un modelo denso de 128B con ventana de contexto de 256k, junto con Vibe (un agente codificador CLI) y Remote Agents (sesiones de codificación en la nube asíncronas, lanzables desde CLI o Le Chat). El modelo es multimodal con un encoder de visión que Mistral entrenó desde cero para manejar tamaños de imagen y proporciones variables — no un retrofit CLIP. Los pesos salen abiertos en HuggingFace. Mistral describe 3.5 como su primer modelo "flagship merged", un término corporativo que necesita desempaque.

El benchmark titular es 77,6% en SWE-Bench Verified, con 91,4 en τ³-Telecom. El primer número es el que hay que estresar, porque las puntuaciones Verified dependen del harness: open-hands, swe-agent y mini-swe cada uno da tasas de éxito diferentes desde el mismo modelo. Mistral no ha revelado el harness, y esa es la pieza faltante. Para comparación honesta: Claude Sonnet 4.5 está en 82,0% en SWE-Bench Verified (con compute paralelo en tiempo de prueba) bajo el harness publicado de Anthropic; el 77,6% de Mistral bajo configuración desconocida es competitivo pero no directamente comparable. El contexto 256k más arquitectura densa (no MoE) a 128B es inusual — la mayoría de labs a esta escala han pasado a routing disperso. Lo denso da latencia consistente y deployment más simple; el costo es eficiencia paramétrica.

Vibe y Remote Agents son la verdadera historia de producto. Vibe corre local como agente codificador CLI. Remote Agents extiende eso a sesiones en nube de larga ejecución en sandboxes aislados — y crucialmente, sesiones locales pueden ser teleportadas a la nube preservando historial y estado. Puntos de integración: GitHub, Linear, Jira, Sentry, Slack, Teams. Mistral está convergiendo en la misma forma agente-y-ejecución-asíncrona que Devin, Claude Code, y Codex han estado construyendo, pero con pesos abiertos debajo y un ángulo de soberanía UE que importa para desarrolladores europeos e industrias reguladas. Infra agente de pesos abiertos con modelo clase 77% SWE-Bench es una propuesta diferente a los equivalentes de pesos cerrados.

Baja los pesos y pásalos por tu propio harness antes de confiar en el 77,6%. Si estás en UE o tienes restricciones de residencia de datos, esta es la opción de pesos abiertos más creíble para un agente codificador clase frontera. Vibe vale un intento si estás en el espectro de herramental CLI — Remote Agents vía Le Chat cambia la curva de costo en tareas autónomas largas. La arquitectura densa significa que la inferencia es más pesada por token que un MoE equivalente; presupuesta para eso si auto-hospedas.

Mistral Medium 3.5 aterriza: denso 128B, contexto 256k, 77,6% en SWE-Bench Verified

Más noticias