月之暗面这周发布了 Kimi-K2.6,是这家北京实验室持续节奏中的最新开放权重发布之一。这次发布和他们的服务基础设施论文 PrfaaS 落在同一周,暗示其训练侧与服务侧在协调推进。权重在 huggingface.co/moonshotai/Kimi-K2.6。按月之暗面惯例,技术声明足够具体可验,即便完整 model card 比架构披露要薄一些。
架构是稀疏混合专家。总参数 1 万亿,每个 MoE 层 384 个专家,每次前向激活 8 个专家。这把激活参数数量放在与 DeepSeek-V3 稀疏路由大致同一区间,其余栈内设计选择也相互呼应:注意力机制采用 Multi-Head Latent Attention,把缓存的 KV 状态压缩成轻量潜在表示,是迄今在长上下文下削减服务内存最有效的做法之一;前馈激活用 SwiGLU。MLA 加稀疏 MoE 这套组合此刻已经是 DeepSeek 风格模板;月之暗面把它拉到 1T 总参数,是在同一套设计语言上做规模推进,而不是新配方。
基准测试这一部分需要打注脚。月之暗面声称该模型在二十多个基准上匹敌或超过前沿,但公布的唯一具体对比数字是 HLE-Full:Kimi-K2.6 54 分,Claude Opus 4.6 53 分,GPT-5.4 52.1 分。这是胜,但只是一分优势在单项基准上,其余比较在原始材料中是定性的。上下文长度、训练 token 数、训练成本都未公布。结论:从能看到的上,具有竞争力;要确认「匹敌或超过前沿」这一更广的覆盖,数据还不充分。接下来两周,HumanEval、SWE-bench、GPQA、MATH、AIME 等独立评测会把画面锐化。
如果你在用预算跑长上下文推理,实用读法很直接。DeepSeek 起的那套「稀疏 MoE + MLA 的开放权重」模板,现已由第二家中国实验室在 1T 总参数上验证,权重今天就能下载。这给你一个真选项,对照你现在在付费的那款闭源前沿模型进行评估,其服务画像从底层开始就为控制激活参数数和 KV 缓存而设计。更长期的模式才是要跟的:月之暗面、DeepSeek、Qwen、GLM 正在以比闭源实验室发布 preview 更快的节奏交付具竞争力的开放权重模型,而服务基础设施论文(本周的 PrfaaS、此前的各类 Ring-attention 与 hybrid-attention 论文)显示这些同样的实验室也在同时缩小推理成本的差距。
