Mistral Medium 3.5: pesos abertos 128B denso, 77,6% em SWE-Bench Verified

A Mistral subiu o Medium 3.5 para o Hugging Face esta semana com pesos abertos sob sua licença: 128B parâmetros densos, contexto 256k, 77,6% em SWE-Bench Verified, 91,4 em τ³-Telecom. O que importa para builders rodando agentes auto-hospedados é a combinação — backbone capaz de codar que você puxa, faz fine-tune na sua codebase, e serve nas suas próprias GPUs. O frontier fechado ainda lidera, mas a distância em resolução de issues de cauda longa comprimiu o suficiente para escolhas de hosting voltarem a pesar.

Duas escolhas arquitetônicas para marcar. Primeiro, denso e não mixture-of-experts: o Medium 3.5 vence Qwen3.5 397B-A17B (MoE, ~17B ativos) no SWE-Bench apesar de ter menos pesos absolutos. A linguagem «modelo fundido» que a Mistral usa significa que colapsaram a divisão anterior entre Mistral instruct e Devstral coding-specialist num único conjunto de pesos cobrindo instruct, raciocínio e código — ops mais simples para builders que odiavam fazer malabarismo com dois endpoints. Segundo, os 77,6% são single-pass no subconjunto Verified de 500 tarefas; os 82% do Sonnet 4.5 vieram com parallel test-time compute, então a comparação real é mais apertada do que a manchete sugere. O que a Mistral não revelou foi a história de contaminação nem se o harness do Vibe pós-processa — essa é a próxima pergunta antes de portar Medium 3.5 num loop de produção.

A superfície Vibe é a outra metade desse release. Vibe já era o agente CLI de codagem da Mistral — mesma categoria que Claude Code, Composer da Cursor, Aider — mas Remote Agents o transforma em concorrente real de Cursor/Devin: execução cloud sandboxed de tarefas longas enquanto você trabalha em outro lugar, sessões disparáveis do CLI ou do Le Chat. A leitura de ecossistema: labs open-weights não se contentam mais em shipar o modelo e deixar a superfície agent para os wrappers. A Mistral fecha o loop ela mesma, como a Anthropic shipou Claude Code junto com Sonnet 4.5. Para builders, isso quer dizer que a stack aberta agora é crível ponta a ponta: pesos hospedáveis, superfície agent usável direto, ou destacável para integração por partes. O moat dos labs fechados se estreita ao test-time compute, integração de tools mais profunda, e ao que o pipeline de evals pre-release do CAISI confere.

Movimento prático: se você roda Devstral 2 ou um coding specialist não-Mistral atrás do seu agente, Medium 3.5 vale um swap de benchmark no seu eval set esta semana. Um único conjunto de pesos simplifica o deploy, 256k de contexto cobre janelas de codebase reais, e Vibe Remote Agents são usáveis direto se você não quer construir sandboxing por conta. Se você já está na API frontier fechada e fica de olho na economia por token, um modelo 128B denso é pequeno o suficiente para a matemática do self-hosting fechar num nó 8xH100 — esse é o cálculo que faltava ao pitch dos agentes open-weights.

Mistral Medium 3.5: pesos abertos 128B denso, 77,6% em SWE-Bench Verified

Mais notícias