月之暗面發布 Kimi-K2.6：1T 參數、MoE 384/8 路由、MLA 注意力——HLE-Full 以 54 分壓過 Claude Opus 4.6 的 53 和 GPT-5.4 的 52.1

月之暗面這週發布了 Kimi-K2.6，是這家北京實驗室持續節奏中的最新開放權重發布之一。這次發布和他們的服務基礎設施論文 PrfaaS 落在同一週，暗示其訓練側與服務側在協調推進。權重在 huggingface.co/moonshotai/Kimi-K2.6。按月之暗面慣例，技術聲明足夠具體可驗，即便完整 model card 比架構披露要薄一些。

架構是稀疏混合專家。總參數 1 兆，每個 MoE 層 384 個專家，每次前向啟動 8 個專家。這把啟動參數數量放在與 DeepSeek-V3 稀疏路由大致同一區間，其餘堆疊內設計選擇也相互呼應：注意力機制採用 Multi-Head Latent Attention，把快取的 KV 狀態壓縮成輕量潛在表示，是迄今在長上下文下削減服務記憶體最有效的做法之一；前饋啟用用 SwiGLU。MLA 加稀疏 MoE 這套組合此刻已經是 DeepSeek 風格模板；月之暗面把它拉到 1T 總參數，是在同一套設計語言上做規模推進，而不是新配方。

基準測試這一部分需要打註腳。月之暗面聲稱該模型在二十多個基準上匹敵或超過前沿，但公布的唯一具體對比數字是 HLE-Full：Kimi-K2.6 54 分，Claude Opus 4.6 53 分，GPT-5.4 52.1 分。這是勝，但只是一分優勢在單項基準上，其餘比較在原始材料中是定性的。上下文長度、訓練 token 數、訓練成本都未公布。結論：從能看到的上，具有競爭力；要確認「匹敵或超過前沿」這一更廣的覆蓋，資料還不充分。接下來兩週，HumanEval、SWE-bench、GPQA、MATH、AIME 等獨立評測會把畫面銳化。

如果你在用預算跑長上下文推論，實用讀法很直接。DeepSeek 起的那套「稀疏 MoE + MLA 的開放權重」模板，現已由第二家中國實驗室在 1T 總參數上驗證，權重今天就能下載。這給你一個真選項，對照你現在在付費的那款閉源前沿模型進行評估，其服務畫像從底層開始就為控制啟動參數數和 KV 快取而設計。更長期的模式才是要跟的：月之暗面、DeepSeek、Qwen、GLM 正在以比閉源實驗室發布 preview 更快的節奏交付具競爭力的開放權重模型，而服務基礎設施論文（本週的 PrfaaS、此前的各類 Ring-attention 與 hybrid-attention 論文）顯示這些同樣的實驗室也在同時縮小推論成本的差距。

月之暗面發布 Kimi-K2.6：1T 參數、MoE 384/8 路由、MLA 注意力——HLE-Full 以 54 分壓過 Claude Opus 4.6 的 53 和 GPT-5.4 的 52.1

更多新聞