A Poolside AI lançou sua família de modelos Laguna em 28 de abril, com dois modelos carro-chefe: Laguna M.1 (225B total / 23B ativados, MoE de pesos fechados) e Laguna XS.2 (33B total / 3B ativados, open-weight). Os números manchete são scores SWE-bench Verified de 72,5% para M.1 e 68,2% para XS.2, colocando ambos na mesma liga dos modelos de codificação fechados de fronteira. O lançamento também inclui "pool" — o agente de codificação baseado em terminal interno da Poolside e um cliente-servidor dual Agent Client Protocol (ACP), disponível como research preview. O detalhe killer para os builders: XS.2 é compacto o bastante para rodar num Mac com 36 GB de RAM via Ollama.
As escolhas de arquitetura no XS.2 valem a leitura. É um modelo Mixture-of-Experts com 256 experts mais 1 expert compartilhado; só 3B parâmetros são ativados por token apesar dos 33B totais. O layout de atenção tem 30 camadas Sliding Window Attention (janela de 512 tokens) intercaladas com 10 camadas global-attention numa razão 3:1 ao longo de 40 camadas totais — isso reduz dramaticamente a memória do KV cache sem perder dependências de longa distância. O KV cache é FP8-quantizado para reduzir mais memória. Sigmoid gating com escalas rotary por camada conduz a mistura SWA/global. Janela de contexto é 131.072 tokens, com suporte nativo a pensamento intercalado entre chamadas de ferramenta e controle por request para habilitar ou desabilitar reasoning. Laguna M.1, o modelo pai, foi treinado do zero com 30 trilhões de tokens usando 6.144 GPUs NVIDIA Hopper interconectadas, terminando o pré-treinamento no final do ano passado. A Poolside também vai lançar o Laguna XS.2-base para praticantes que querem fine-tunar.
Dois padrões importam. Primeiro, a distância entre modelos de codificação open-weight e closed-weight acabou de diminuir de forma significativa. 68,2% no SWE-bench Verified para um modelo open-weight 33B / 3B ativos é competitivo com modelos closed-weight de escala equivalente, e a possibilidade de rodar local no Mac remove uma das razões principais para usar uma API fechada em tarefas de código: latência. Os builders que querem que o agente rode dentro do ambiente de desenvolvimento sem round-trip de rede agora têm uma opção benchmark-competitiva. Segundo, a arquitetura do XS.2 parece o playbook de inferência eficiente consolidado de 2026: MoE para teto-sem-custo, atenção SWA + global mista para contexto longo, KV cache FP8 para memória, raciocínio intercalado nativo. Quem lança seu próprio stack de inferência eficiente deve tratar essa configuração como o alvo de referência atual.
Para os builders, três coisas concretas. Primeiro, XS.2 mais Ollama num Mac de 36 GB é o benchmark certo para rodar de verdade antes de se comprometer com uma API de codificação fechada para o seu caso de uso. O retrato de latência, privacidade e custo está diferente o suficiente para que a comparação não seja mais trivialmente a favor dos modelos fechados de fronteira. Segundo, o agente "pool" e o lançamento do Agent Client Protocol valem o estudo se você constrói seu próprio harness de agente. ACP como nome é genérico o suficiente para vermos outros vendors convergirem em torno; seja ou não o protocolo específico da Poolside um padrão, o padrão de separar o condutor do agente do modelo é a arquitetura certa. Terceiro, a razão 3:1 SWA/global com janelas de 512 tokens no XS.2 é uma escolha ajustável que outros times open-weight provavelmente vão copiar. Olhe configurações semelhantes em sucessores de Mistral e Qwen nos próximos meses — o espaço de design para atenção de contexto longo eficiente está convergindo rápido.
