Poolside AI ने 28 अप्रैल को अपनी Laguna model family रिलीज़ की, दो प्रमुख models के साथ: Laguna M.1 (225B कुल / 23B सक्रिय MoE, बंद-वज़न) और Laguna XS.2 (33B कुल / 3B सक्रिय, open-weight)। सुर्ख़ी संख्याएं हैं SWE-bench Verified score: M.1 के लिए 72.5% और XS.2 के लिए 68.2% — जो दोनों को frontier closed coding models के समान league में रखती हैं। रिलीज़ में "pool" भी शामिल है — Poolside का आंतरिक terminal-आधारित coding agent और एक dual Agent Client Protocol (ACP) client-server, research preview के तौर पर उपलब्ध। builders के लिए killer detail: XS.2 इतना compact है कि Ollama के माध्यम से 36 GB RAM वाले Mac पर चल जाता है।

XS.2 में architecture choices पढ़ने योग्य हैं। यह एक Mixture-of-Experts model है जिसमें 256 experts और 1 साझा expert हैं; 33B कुल के बावजूद प्रति token केवल 3B parameters सक्रिय होते हैं। Attention layout 30 Sliding Window Attention layers (512-token window) के साथ 10 global-attention layers का है, 40 कुल layers में 3:1 अनुपात के साथ — यह KV cache memory को नाटकीय रूप से गिराता है, बिना long-range dependencies खोए। KV cache FP8-quantized है, और memory कम होती है। per-layer rotary scales के साथ sigmoid gating SWA/global mix को drive करती है। Context window 131,072 tokens है, tool calls के बीच native interleaved thinking के साथ और per-request reasoning चालू/बंद करने के नियंत्रण के साथ। Laguna M.1, parent model, ज़ीरो से 30 trillion tokens पर 6,144 interconnected NVIDIA Hopper GPUs के साथ trained है, जिसने पिछले साल के अंत में pre-training पूरी की। Poolside Laguna XS.2-base भी रिलीज़ करेगी, उन practitioners के लिए जो fine-tune करना चाहते हैं।

दो pattern मायने रखते हैं। पहला, open-weight और closed-weight coding models के बीच की खाई अभी महत्वपूर्ण रूप से छोटी हो गई है। एक open-weight 33B / 3B-active model के लिए SWE-bench Verified पर 68.2% equivalent scale के closed-weight models के साथ competitive है, और local-Mac runnability coding tasks के लिए closed API उपयोग करने का एक मुख्य कारण हटा देती है: latency। जो builders चाहते हैं कि उनका agent network round-trip के बिना उनके development environment के अंदर चले, उनके पास अब एक benchmark-competitive विकल्प है। दूसरा, XS.2 की architecture 2026 के efficient-inference playbook जैसी दिखती है: headroom-without-cost के लिए MoE, long context के लिए मिश्रित SWA + global attention, memory के लिए FP8 KV cache, native interleaved reasoning। कोई भी जो अपना efficient inference stack ship कर रहा है, उसे इस configuration को वर्तमान reference target मानना चाहिए।

Builders के लिए, तीन ठोस बातें। पहला, अपने उपयोग मामले के लिए closed coding API पर commit करने से पहले 36 GB Mac पर XS.2 + Ollama actually चलाना सही benchmark है। latency, privacy, और cost की तस्वीर इतनी अलग है कि comparison अब tritely ही frontier closed models के पक्ष में नहीं है। दूसरा, अगर आप अपना agent harness बना रहे हैं, तो "pool" agent और Agent Client Protocol रिलीज़ अध्ययन के योग्य हैं। ACP नाम के तौर पर इतना सामान्य है कि हम अन्य vendors को इसके आसपास converge होते देख सकते हैं; चाहे Poolside का विशिष्ट protocol मानक बने या नहीं, agent-driver को model से अलग करने का pattern सही architecture है। तीसरा, XS.2 में SWA/global 3:1 अनुपात 512-token windows के साथ एक tunable choice है जिसे अन्य open-weight teams संभवतः copy करेंगी। अगले कई महीनों में Mistral और Qwen के उत्तराधिकारियों में समान configurations देखें — efficient long-context attention के लिए design space तेज़ी से converge हो रहा है।