Moonshot entrega Kimi-K2.6 con 1T params, routing MoE 384/8 y atención MLA — HLE-Full supera a Claude Opus 4.6 y GPT-5.4

Moonshot AI lanzó Kimi-K2.6 esta semana, la última adición a una cadencia que ha hecho del laboratorio pekinés uno de los más consistentes en releases de pesos abiertos en el espacio. La release aterriza la misma semana que su paper de infraestructura de servicio PrfaaS, lo cual sugiere que los lados de entrenamiento y servicio de su stack se están empujando coordinadamente. Los pesos están en huggingface.co/moonshotai/Kimi-K2.6. Como de costumbre con Moonshot, las afirmaciones técnicas son lo bastante concretas para evaluar, aunque la ficha completa del modelo sea más delgada que la divulgación de arquitectura.

La arquitectura es una mezcla dispersa de expertos. Un billón de parámetros en total, 384 expertos por capa MoE, ocho expertos activos por pase hacia adelante. Eso pone el conteo de parámetros activos en la misma banda aproximada que el routing disperso de DeepSeek-V3, y las elecciones de diseño riman con el resto del stack: Multi-Head Latent Attention para el mecanismo de atención, que comprime el estado KV en caché en una representación latente ligera y ha sido una de las formas más efectivas de recortar memoria de servicio en cargas de contexto largo, y SwiGLU para las activaciones feed-forward. La combinación MLA más MoE disperso es la plantilla estilo DeepSeek a estas alturas; Moonshot corriéndola a 1T total es un empuje de escala sobre el mismo lenguaje de diseño más que una receta nueva.

Los benchmarks son la parte a caveatear. Moonshot afirma que el modelo iguala o supera la frontera en más de dos docenas de benchmarks, pero el único número específico head-to-head divulgado es HLE-Full: Kimi-K2.6 puntúa 54, Claude Opus 4.6 puntúa 53, GPT-5.4 puntúa 52,1. Eso es una victoria, pero es una victoria de un punto en un solo benchmark, y el resto de las comparaciones reclamadas son cualitativas en el material fuente. La longitud de contexto, el conteo de tokens de entrenamiento, y el costo de entrenamiento no están divulgados en la release que tenemos. Así: competitivo en lo que podemos ver, datos insuficientes para confirmar el reclamo completo "iguala o supera frontera" en el conjunto más amplio de benchmarks. Evaluaciones independientes en HumanEval, SWE-bench, GPQA, MATH, y AIME afinarán la imagen en las próximas dos semanas.

Si estás enviando inferencia de contexto largo con presupuesto, la lectura práctica es directa. El patrón de pesos abiertos MoE disperso más MLA de DeepSeek ya está validado a 1T total por un segundo laboratorio chino, y los pesos son descargables hoy. Eso te da una opción real para comparar contra el modelo frontera cerrado que estás pagando actualmente, con un perfil de servicio diseñado desde cero para mantener manejables el conteo de parámetros activos y el caché KV. El patrón a largo plazo es el que trackear: Moonshot, DeepSeek, Qwen, y GLM están enviando modelos competitivos de pesos abiertos a una cadencia más rápida de la que los laboratorios cerrados envían modelos preview, y los papers de infraestructura de servicio (PrfaaS esta semana, varios papers Ring-attention y hybrid-attention antes) muestran que los mismos laboratorios también están cerrando el gap de costo de inferencia al mismo tiempo.

Moonshot entrega Kimi-K2.6 con 1T params, routing MoE 384/8 y atención MLA — HLE-Full supera a Claude Opus 4.6 y GPT-5.4

Más noticias