月之暗面這週發布了 Kimi-K2.6,是這家北京實驗室持續節奏中的最新開放權重發布之一。這次發布和他們的服務基礎設施論文 PrfaaS 落在同一週,暗示其訓練側與服務側在協調推進。權重在 huggingface.co/moonshotai/Kimi-K2.6。按月之暗面慣例,技術聲明足夠具體可驗,即便完整 model card 比架構披露要薄一些。

架構是稀疏混合專家。總參數 1 兆,每個 MoE 層 384 個專家,每次前向啟動 8 個專家。這把啟動參數數量放在與 DeepSeek-V3 稀疏路由大致同一區間,其餘堆疊內設計選擇也相互呼應:注意力機制採用 Multi-Head Latent Attention,把快取的 KV 狀態壓縮成輕量潛在表示,是迄今在長上下文下削減服務記憶體最有效的做法之一;前饋啟用用 SwiGLU。MLA 加稀疏 MoE 這套組合此刻已經是 DeepSeek 風格模板;月之暗面把它拉到 1T 總參數,是在同一套設計語言上做規模推進,而不是新配方。

基準測試這一部分需要打註腳。月之暗面聲稱該模型在二十多個基準上匹敵或超過前沿,但公布的唯一具體對比數字是 HLE-Full:Kimi-K2.6 54 分,Claude Opus 4.6 53 分,GPT-5.4 52.1 分。這是勝,但只是一分優勢在單項基準上,其餘比較在原始材料中是定性的。上下文長度、訓練 token 數、訓練成本都未公布。結論:從能看到的上,具有競爭力;要確認「匹敵或超過前沿」這一更廣的覆蓋,資料還不充分。接下來兩週,HumanEval、SWE-bench、GPQA、MATH、AIME 等獨立評測會把畫面銳化。

如果你在用預算跑長上下文推論,實用讀法很直接。DeepSeek 起的那套「稀疏 MoE + MLA 的開放權重」模板,現已由第二家中國實驗室在 1T 總參數上驗證,權重今天就能下載。這給你一個真選項,對照你現在在付費的那款閉源前沿模型進行評估,其服務畫像從底層開始就為控制啟動參數數和 KV 快取而設計。更長期的模式才是要跟的:月之暗面、DeepSeek、Qwen、GLM 正在以比閉源實驗室發布 preview 更快的節奏交付具競爭力的開放權重模型,而服務基礎設施論文(本週的 PrfaaS、此前的各類 Ring-attention 與 hybrid-attention 論文)顯示這些同樣的實驗室也在同時縮小推論成本的差距。