Poolside AI lanzó su familia de modelos Laguna el 28 de abril, con dos modelos insignia: Laguna M.1 (225B total / 23B activados, MoE de pesos cerrados) y Laguna XS.2 (33B total / 3B activados, open-weight). Los números titulares son scores SWE-bench Verified de 72,5% para M.1 y 68,2% para XS.2, lo que pone a ambos en la misma liga que los modelos de codificación cerrados de frontera. El lanzamiento también incluye "pool" — el agente de codificación basado en terminal interno de Poolside y un cliente-servidor dual Agent Client Protocol (ACP), disponible como research preview. El detalle killer para los builders: XS.2 es lo suficientemente compacto para correr en una Mac con 36 GB de RAM vía Ollama.
Las decisiones de arquitectura en XS.2 valen la lectura. Es un modelo Mixture-of-Experts con 256 expertos más 1 experto compartido; sólo 3B parámetros se activan por token a pesar de 33B totales. El layout de atención son 30 capas Sliding Window Attention (ventana de 512 tokens) intercaladas con 10 capas global-attention en una proporción 3:1 a lo largo de 40 capas totales — eso reduce dramáticamente la memoria del KV cache sin perder dependencias de largo alcance. El KV cache está FP8-cuantificado para reducir más la memoria. Sigmoid gating con escalas rotary por capa maneja la mezcla SWA/global. La ventana de contexto es 131.072 tokens, con soporte nativo para pensamiento intercalado entre llamadas a herramientas y control por request para habilitar o deshabilitar reasoning. Laguna M.1, el modelo padre, fue entrenado desde cero con 30 billones de tokens usando 6.144 GPUs NVIDIA Hopper interconectadas, terminando el pre-entrenamiento a fin del año pasado. Poolside también va a lanzar Laguna XS.2-base para practicantes que quieran fine-tunear.
Dos patrones importan. Primero, la brecha entre modelos de codificación open-weight y closed-weight acaba de achicarse de forma significativa. 68,2% en SWE-bench Verified para un modelo open-weight 33B / 3B activos es competitivo con modelos closed-weight de escala equivalente, y la corrida local en Mac elimina una de las razones principales para usar una API cerrada en tareas de código: latencia. Los builders que quieren que su agente corra dentro de su entorno de desarrollo sin ida y vuelta de red ahora tienen una opción benchmark-competitiva. Segundo, la arquitectura de XS.2 se ve como el playbook de inferencia eficiente consolidado de 2026: MoE para techo-sin-costo, atención SWA + global mixta para contexto largo, KV cache FP8 para memoria, razonamiento intercalado nativo. Cualquiera que lance su propio stack de inferencia eficiente debería tratar esta configuración como el objetivo de referencia actual.
Para los builders, tres cosas concretas. Primero, XS.2 más Ollama en una Mac de 36 GB es el benchmark correcto para correr de verdad antes de comprometerse con una API de codificación cerrada para tu caso de uso. La fotografía de latencia, privacidad y costo es lo suficientemente distinta como para que la comparación ya no esté trivialmente a favor de los modelos cerrados de frontera. Segundo, el agente "pool" y el lanzamiento del Agent Client Protocol vale la pena estudiarlos si construís tu propio harness de agente. ACP como nombre es lo suficientemente genérico como para que veamos a otros vendors converger alrededor; sea o no el protocolo específico de Poolside un estándar, el patrón de separar el conductor del agente del modelo es la arquitectura correcta. Tercero, la proporción 3:1 SWA/global con ventanas de 512 tokens en XS.2 es una decisión ajustable que otros equipos open-weight probablemente copien. Mirá configuraciones similares en sucesores de Mistral y Qwen en los próximos meses — el espacio de diseño para atención eficiente de contexto largo está convergiendo rápido.
