Poolside AI 於 4 月 28 日發布 Laguna 模型系列,推出兩款旗艦:Laguna M.1(總參 225B / 啟用 23B,封閉 MoE)與 Laguna XS.2(總參 33B / 啟用 3B,open-weight)。標題數字是 SWE-bench Verified 上的 72.5%(M.1)與 68.2%(XS.2),把這兩款都送進了與封閉前沿程式碼模型同檔的位置。本次發布還包括「pool」—— Poolside 內部使用的、基於終端的程式碼 agent 與一套雙端 Agent Client Protocol(ACP)client-server,作為 research preview 對外開放。對 builders 來說真正殺手級的細節:XS.2 足夠小,可透過 Ollama 在 36 GB RAM 的 Mac 上跑起來。
XS.2 的架構選擇值得一看。它是一款 Mixture-of-Experts 模型,擁有 256 個 expert 加 1 個共享 expert;儘管總參數 33B,每個 token 僅啟用 3B 參數。注意力佈局是 30 層 Sliding Window Attention(512 token 視窗)與 10 層 global attention 按 3:1 交錯,共 40 層 —— 這顯著降低了 KV cache 記憶體,同時不丟失長程依賴。KV cache 進行 FP8 量化以進一步壓縮記憶體。帶逐層 rotary scale 的 sigmoid gating 驅動 SWA/global 的混合。上下文視窗為 131,072 token,原生支援工具呼叫之間的「交錯思考」,並可按請求開關 reasoning。Laguna M.1 作為母模型,從零起,在 6,144 張互聯的 NVIDIA Hopper GPU 上以 30 兆 token 訓練,去年底完成預訓練。Poolside 還將釋出 Laguna XS.2-base,供想要 fine-tune 的從業者使用。
兩條值得關注的模式。第一,open-weight 與 closed-weight 程式碼模型之間的差距,剛剛被實實在在拉小。33B / 啟用 3B 的 open-weight 模型,在 SWE-bench Verified 上拿到 68.2%,與同等規模的閉源模型已具競爭力;再加上能夠在本地 Mac 上跑,就把「為何要用封閉 API 處理程式碼任務」的核心理由之一 —— 延遲 —— 拿掉了。希望 agent 在自己的開發環境內部、不經過網路往返地運行的 builders,如今有了一個 benchmark-competitive 的選項。第二,XS.2 的架構看起來就是 2026 年高效推論的合集 playbook:用 MoE 換得「容量不付帳」,用 SWA + global 混合注意力換得長上下文,用 FP8 KV cache 換得記憶體,原生支援 interleaved reasoning。任何要交付自己高效推論堆疊的人,都應把這套配置當作當下的參考目標。
對 builders,三件具體事情。第一,在你為某個使用情境押注封閉程式碼 API 之前,先在 36 GB Mac 上把 XS.2 + Ollama 真正跑一跑當作基準。延遲、隱私、成本三方面的對照已經顯著不同,比較結果不再天經地義地偏向前沿封閉模型了。第二,如果你在自己搭 agent 框架,「pool」agent 與 Agent Client Protocol 的發布值得研究。ACP 這個名字本身夠通用,可能會有其他廠商圍繞它收斂;無論 Poolside 的具體協定是否成為標準,把「驅動 agent 的程式碼」與「模型」分開,這種模式就是正確的架構。第三,XS.2 中 SWA/global 3:1、512 token 視窗的比例,是一種可調的選擇,其他 open-weight 團隊很可能會跟進。未來幾個月,留意 Mistral 與 Qwen 的後續模型裡出現類似配置 —— 長上下文高效注意力的設計空間,正在迅速收斂。
