月之暗面发布 Kimi-K2.6：1T 参数、MoE 384/8 路由、MLA 注意力——HLE-Full 以 54 分压过 Claude Opus 4.6 的 53 和 GPT-5.4 的 52.1

月之暗面这周发布了 Kimi-K2.6，是这家北京实验室持续节奏中的最新开放权重发布之一。这次发布和他们的服务基础设施论文 PrfaaS 落在同一周，暗示其训练侧与服务侧在协调推进。权重在 huggingface.co/moonshotai/Kimi-K2.6。按月之暗面惯例，技术声明足够具体可验，即便完整 model card 比架构披露要薄一些。

架构是稀疏混合专家。总参数 1 万亿，每个 MoE 层 384 个专家，每次前向激活 8 个专家。这把激活参数数量放在与 DeepSeek-V3 稀疏路由大致同一区间，其余栈内设计选择也相互呼应：注意力机制采用 Multi-Head Latent Attention，把缓存的 KV 状态压缩成轻量潜在表示，是迄今在长上下文下削减服务内存最有效的做法之一；前馈激活用 SwiGLU。MLA 加稀疏 MoE 这套组合此刻已经是 DeepSeek 风格模板；月之暗面把它拉到 1T 总参数，是在同一套设计语言上做规模推进，而不是新配方。

基准测试这一部分需要打注脚。月之暗面声称该模型在二十多个基准上匹敌或超过前沿，但公布的唯一具体对比数字是 HLE-Full：Kimi-K2.6 54 分，Claude Opus 4.6 53 分，GPT-5.4 52.1 分。这是胜，但只是一分优势在单项基准上，其余比较在原始材料中是定性的。上下文长度、训练 token 数、训练成本都未公布。结论：从能看到的上，具有竞争力；要确认「匹敌或超过前沿」这一更广的覆盖，数据还不充分。接下来两周，HumanEval、SWE-bench、GPQA、MATH、AIME 等独立评测会把画面锐化。

如果你在用预算跑长上下文推理，实用读法很直接。DeepSeek 起的那套「稀疏 MoE + MLA 的开放权重」模板，现已由第二家中国实验室在 1T 总参数上验证，权重今天就能下载。这给你一个真选项，对照你现在在付费的那款闭源前沿模型进行评估，其服务画像从底层开始就为控制激活参数数和 KV 缓存而设计。更长期的模式才是要跟的：月之暗面、DeepSeek、Qwen、GLM 正在以比闭源实验室发布 preview 更快的节奏交付具竞争力的开放权重模型，而服务基础设施论文（本周的 PrfaaS、此前的各类 Ring-attention 与 hybrid-attention 论文）显示这些同样的实验室也在同时缩小推理成本的差距。

月之暗面发布 Kimi-K2.6：1T 参数、MoE 384/8 路由、MLA 注意力——HLE-Full 以 54 分压过 Claude Opus 4.6 的 53 和 GPT-5.4 的 52.1

更多新闻