Moonshot livre Kimi-K2.6 à 1T params, routage MoE 384/8 et attention MLA — HLE-Full devance Claude Opus 4.6 et GPT-5.4

Moonshot AI a expédié Kimi-K2.6 cette semaine, la dernière addition à une cadence qui a fait du laboratoire pékinois un des plus consistants en releases de poids ouverts dans l'espace. La release atterrit la même semaine que leur papier d'infrastructure de service PrfaaS, ce qui suggère que les côtés entraînement pis service de leur pile sont poussés en coordination. Les poids sont à huggingface.co/moonshotai/Kimi-K2.6. Comme d'habitude avec Moonshot, les affirmations techniques sont assez concrètes pour être évaluées, même si la fiche complète du modèle est plus mince que la divulgation d'architecture.

L'architecture est un mélange épars d'experts. Un billion de paramètres au total, 384 experts par couche MoE, huit experts actifs par passe avant. Ça place le nombre de paramètres actifs dans la même bande approximative que le routage épars de DeepSeek-V3, et les choix de design riment avec le reste de la pile : Multi-Head Latent Attention pour le mécanisme d'attention, qui compresse l'état KV mis en cache dans une représentation latente légère et a été une des façons les plus efficaces de couper la mémoire de service sur les charges long-contexte, pis SwiGLU pour les activations feed-forward. La combinaison MLA plus MoE sparse est le template de style DeepSeek à ce stade ; Moonshot le roulant à 1T total est un push d'échelle sur le même langage de design plutôt qu'une nouvelle recette.

Les benchmarks sont la partie à caveat. Moonshot prétend que le modèle matche ou bat la frontière sur plus de deux douzaines de benchmarks, mais le seul chiffre spécifique face-à-face divulgué est HLE-Full : Kimi-K2.6 score 54, Claude Opus 4.6 score 53, GPT-5.4 score 52,1. C'est une victoire, mais c'est une victoire d'un point sur un seul benchmark, pis le reste des comparaisons revendiquées est qualitatif dans le matériel source. La longueur de contexte, le nombre de tokens d'entraînement, pis le coût d'entraînement ne sont pas divulgués dans la release qu'on a. Donc : compétitif sur ce qu'on peut voir, données insuffisantes pour confirmer la revendication complète « matche ou bat la frontière » sur l'ensemble plus large de benchmarks. Des évaluations indépendantes sur HumanEval, SWE-bench, GPQA, MATH, pis AIME affineront l'image sur les deux prochaines semaines.

Si tu expédies de l'inférence long-contexte avec un budget, la lecture pratique est directe. Le pattern MoE épars plus MLA en poids ouverts de DeepSeek est maintenant validé à 1T total par un deuxième labo chinois, pis les poids sont téléchargeables aujourd'hui. Ça te donne une vraie option à comparer contre le modèle frontière fermé que tu paies présentement, avec un profil de service conçu de zéro pour garder le nombre de paramètres actifs pis le cache KV gérable. Le pattern à long terme est celui à suivre : Moonshot, DeepSeek, Qwen, pis GLM expédient des modèles compétitifs en poids ouverts à une cadence plus rapide que les labos fermés n'expédient des modèles preview, pis les papiers d'infrastructure de service (PrfaaS cette semaine, divers papiers Ring-attention pis hybrid-attention plus tôt) montrent que les mêmes labos ferment aussi l'écart de coût d'inférence en même temps.

Moonshot livre Kimi-K2.6 à 1T params, routage MoE 384/8 et attention MLA — HLE-Full devance Claude Opus 4.6 et GPT-5.4

Plus de nouvelles