Poolside AI 于 4 月 28 日发布 Laguna 模型系列,推出两款旗舰:Laguna M.1(总参 225B / 激活 23B,闭源 MoE)与 Laguna XS.2(总参 33B / 激活 3B,open-weight)。标题数字是 SWE-bench Verified 上的 72.5%(M.1)与 68.2%(XS.2),把这两款都送进了与闭源前沿编程模型同档的位置。本次发布还包括「pool」—— Poolside 内部使用的、基于终端的编程 agent 与一套双端 Agent Client Protocol(ACP)client-server,作为 research preview 对外开放。对 builders 来说真正杀手级的细节:XS.2 足够小,可通过 Ollama 在 36 GB RAM 的 Mac 上跑起来。

XS.2 的架构选择值得一看。它是一款 Mixture-of-Experts 模型,拥有 256 个 expert 加 1 个共享 expert;尽管总参数 33B,每个 token 仅激活 3B 参数。注意力布局是 30 层 Sliding Window Attention(512 token 窗口)与 10 层 global attention 按 3:1 交错,共 40 层 —— 这显著降低了 KV cache 内存,同时不丢失长程依赖。KV cache 进行 FP8 量化以进一步压缩内存。带逐层 rotary scale 的 sigmoid gating 驱动 SWA/global 的混合。上下文窗口为 131,072 token,原生支持工具调用之间的「交错思考」,并可按请求开关 reasoning。Laguna M.1 作为母模型,从零起,在 6,144 张互联的 NVIDIA Hopper GPU 上以 30 万亿 token 训练,去年底完成预训练。Poolside 还将释出 Laguna XS.2-base,供想要 fine-tune 的从业者使用。

两条值得关注的模式。第一,open-weight 与 closed-weight 编程模型之间的差距,刚刚被实实在在拉小。33B / 激活 3B 的 open-weight 模型,在 SWE-bench Verified 上拿到 68.2%,与同等规模的闭源模型已具竞争力;再加上能够在本地 Mac 上跑,就把「为何要用闭源 API 处理编程任务」的核心理由之一 —— 延迟 —— 拿掉了。希望 agent 在自己的开发环境内部、不经过网络往返地运行的 builders,如今有了一个 benchmark-competitive 的选项。第二,XS.2 的架构看起来就是 2026 年高效推理的合集 playbook:用 MoE 换得「容量不付账」,用 SWA + global 混合注意力换得长上下文,用 FP8 KV cache 换得内存,原生支持 interleaved reasoning。任何要交付自己高效推理栈的人,都应把这套配置当作当下的参考目标。

对 builders,三件具体事情。第一,在你为某个使用场景押注闭源编程 API 之前,先在 36 GB Mac 上把 XS.2 + Ollama 真正跑一跑当作基准。延迟、隐私、成本三方面的对照已经显著不同,比较结果不再天经地义地偏向前沿闭源模型了。第二,如果你在自己搭 agent 框架,「pool」agent 与 Agent Client Protocol 的发布值得研究。ACP 这个名字本身够通用,可能会有其他厂商围绕它收敛;无论 Poolside 的具体协议是否成为标准,把「驱动 agent 的代码」与「模型」分开,这种模式就是正确的架构。第三,XS.2 中 SWA/global 3:1、512 token 窗口的比例,是一种可调的选择,其他 open-weight 团队很可能会跟进。未来几个月,留意 Mistral 与 Qwen 的后续模型里出现类似配置 —— 长上下文高效注意力的设计空间,正在迅速收敛。