Mistral Medium 3.5 chega: denso 128B, contexto 256k, 77,6% no SWE-Bench Verified

A Mistral lançou Mistral Medium 3.5, um modelo denso de 128B com janela de contexto de 256k, junto com Vibe (um agente programador CLI) e Remote Agents (sessões de codificação em nuvem assíncronas, despacháveis do CLI ou Le Chat). O modelo é multimodal com um encoder de visão que a Mistral treinou do zero para lidar com tamanhos de imagem e proporções variáveis — não um retrofit CLIP. Os pesos saem abertos no HuggingFace. A Mistral descreve o 3.5 como seu primeiro modelo "flagship merged", termo corporativo que precisa ser desempacotado.

O benchmark manchete é 77,6% no SWE-Bench Verified, com 91,4 no τ³-Telecom. O primeiro número é o que precisa ser estressado, porque pontuações Verified dependem do harness: open-hands, swe-agent e mini-swe cada um dá taxas de sucesso diferentes do mesmo modelo. A Mistral não divulgou o harness, e essa é a peça faltando. Para comparação honesta: Claude Sonnet 4.5 está em 82,0% no SWE-Bench Verified (com compute paralelo em tempo de teste) sob o harness publicado da Anthropic; o 77,6% da Mistral sob configuração desconhecida é competitivo mas não diretamente comparável. O contexto 256k mais arquitetura densa (não MoE) a 128B é incomum — a maioria dos labs nessa escala migrou para roteamento esparso. Denso dá latência consistente e deployment mais simples; o custo é eficiência paramétrica.

Vibe e Remote Agents são a história de produto real. Vibe roda local como agente programador CLI. Remote Agents estende isso para sessões em nuvem de longa execução em sandboxes isolados — e crucialmente, sessões locais podem ser teleportadas para a nuvem preservando histórico e estado. Pontos de integração: GitHub, Linear, Jira, Sentry, Slack, Teams. A Mistral está convergindo na mesma forma agente-e-execução-assíncrona que Devin, Claude Code e Codex vêm construindo, mas com pesos abertos embaixo e um ângulo de soberania UE que importa para desenvolvedores europeus e indústrias reguladas. Infra de agente de pesos abertos com modelo classe 77% SWE-Bench é uma proposta diferente dos equivalentes de pesos fechados.

Baixe os pesos e passe pelo seu próprio harness antes de confiar nos 77,6%. Se você está na UE ou tem restrições de residência de dados, essa é a opção de pesos abertos mais crível para um agente programador classe fronteira. Vibe vale uma tentativa se você está no espectro de ferramental CLI — Remote Agents via Le Chat muda a curva de custo em tarefas autônomas longas. A arquitetura densa significa que a inferência é mais pesada por token que um MoE equivalente; orce para isso se auto-hospedar.

Mistral Medium 3.5 chega: denso 128B, contexto 256k, 77,6% no SWE-Bench Verified

Mais notícias