Poolside AI a sorti sa famille de modèles Laguna le 28 avril, avec deux modèles phares : Laguna M.1 (225B total / 23B activés, MoE propriétaire) pis Laguna XS.2 (33B total / 3B activés, open-weight). Les chiffres titres, c'est des scores SWE-bench Verified de 72,5 % pour M.1 pis 68,2 % pour XS.2, ce qui place les deux dans la même ligue que les modèles de codage fermés de pointe. La release inclut aussi « pool » — l'agent de codage terminal interne de Poolside pis un client-server dual Agent Client Protocol (ACP), disponible en research preview. Le détail killer pour les builders : XS.2 est assez compact pour rouler sur un Mac avec 36 Go de RAM via Ollama.
Les choix d'architecture dans XS.2 valent la lecture. C'est un modèle Mixture-of-Experts avec 256 experts plus 1 expert partagé; juste 3B paramètres sont activés par token sur 33B totaux. La disposition d'attention, c'est 30 couches Sliding Window Attention (fenêtre de 512 tokens) entrelacées avec 10 couches global attention dans un ratio 3:1 sur 40 couches totales — ça fait baisser la mémoire du KV cache de manière dramatique sans perdre les dépendances longue portée. Le KV cache est quantifié en FP8 pour réduire encore la mémoire. Du sigmoid gating avec des échelles rotary par couche pilote le mix SWA/global. La fenêtre de contexte est 131 072 tokens, avec un support natif de pensée entrelacée entre les appels d'outils, pis un contrôle par requête pour activer ou désactiver le reasoning. Laguna M.1, le modèle parent, a été entraîné à partir de zéro sur 30 trillions de tokens avec 6 144 GPU NVIDIA Hopper interconnectés, complétant le pré-entraînement à la fin de l'an passé. Poolside va aussi sortir Laguna XS.2-base pour les praticiens qui veulent fine-tuner.
Deux patterns comptent. Premièrement, l'écart entre les modèles de codage open-weight pis closed-weight vient de rétrécir de façon significative. 68,2 % sur SWE-bench Verified pour un modèle open-weight 33B / 3B actifs, c'est concurrentiel avec les modèles closed-weight d'échelle équivalente, pis la possibilité de rouler localement sur Mac enlève une des raisons principales d'utiliser une API fermée pour les tâches de codage : la latence. Les builders qui veulent que leur agent roule dans leur environnement de dev sans aller-retour réseau ont maintenant une option benchmark-concurrentielle. Deuxièmement, l'architecture de XS.2 ressemble au playbook d'inférence efficace consolidé de 2026 : MoE pour la marge-sans-coût, attention SWA + global mixte pour le long contexte, KV cache FP8 pour la mémoire, raisonnement entrelacé natif. N'importe qui qui livre son propre stack d'inférence efficace devrait traiter cette configuration comme la cible de référence actuelle.
Pour les builders, trois choses concrètes. Premièrement, XS.2 plus Ollama sur un Mac de 36 Go, c'est le bon benchmark à rouler pour vrai avant de t'engager sur une API de codage fermée pour ton cas d'usage. Le portrait latence/confidentialité/coût est assez différent que la comparaison est pus trivialement en faveur des modèles fermés de pointe. Deuxièmement, l'agent « pool » pis la release Agent Client Protocol valent la peine d'être étudiés si tu bâtis ton propre harnais d'agent. ACP comme nom est assez générique qu'on pourrait voir d'autres fournisseurs converger autour; que le protocole spécifique de Poolside devienne un standard ou pas, le pattern de séparer le pilote d'agent du modèle, c'est la bonne architecture. Troisièmement, le ratio 3:1 SWA/global avec des fenêtres de 512 tokens dans XS.2, c'est un choix ajustable que d'autres équipes open-weight vont probablement copier. Surveille des configurations similaires dans les successeurs de Mistral pis Qwen dans les prochains mois — l'espace de design pour l'attention long-contexte efficace converge vite.
