Cohere Command A+:218B 稀疏 MoE(25B 啟動),2x H100 W4A4,Apache 2.0 開源

Cohere 把 Command A+ 用 Apache 2.0 開源權重發了出來:decoder-only 的稀疏 Mixture-of-Experts transformer,218B 總參,每 token 啟動 25B。拓樸:128 個 expert,每 token 啟動 8 個,外加 1 個 shared expert。輸入 context 128K,最大生成 64K。對 builder 來說最像 headline 的是部署故事:W4A4 量化(NVFP4 只用在 MoE expert 上,attention path 保持 full precision)下,2 張 H100 就能跑起來。其他配置:1 張 B200、4 張 H100 FP8、8 張 H100 BF16。HuggingFace 已上,vLLM 0.21.0+ 和 Transformers 都支援。後訓練用 Quantization-Aware Distillation 把 W4A4 下的品質找回。Cohere 把 Command A+ 擺成一個統一的多模態 Command A(輸入 text、image、tool;輸出 text、reasoning、tool use)。

對比上一版 Command A Reasoning 的 agentic benchmark 增量,才是真正有訊號的地方。τ²-Bench Telecom 從 37% 漲到 85%。Terminal-Bench Hard agentic coding 從 3% 漲到 25%。Agentic QA 準確率提高 20 個百分點。Terminal-Bench Hard 那個差距是最說明問題的 —— 它測的是命令列下、多步、agentic 的解題能力,Hard 檔從 3% 跳到 25% 是 agent 在系統類工作上可靠性的階梯式提升。Cohere 在追的是和 Anthropic 在 Code With Claude 上端出來的 Capability Curve(SWE-bench 一年 62%→87%)以及 Google Gemini 3.5 Flash 「agent-first」一樣的 agentic capability 敘事,但是用開源權重,而不是閉源 API。W4A4 這個部署故事才是差異化的地方:把一個 218B 級別的 frontier MoE 跑在 2 張 H100 上,這是閉權重的 Anthropic / Google / OpenAI frontier 模型在 TCO 上很難匹的「可達中端市場」場景。

生態背景。NVFP4(我們 5 月 18 日那篇 NVIDIA 預訓練裡覆蓋過的 4-bit 格式)就是這次的量化標準 —— Cohere 是把它用在 MoE expert 通路,attention 仍然保持 full precision。這就是 NVFP4 實際落地的樣子:不是整模型 4-bit,而是選擇性地用在「參數多、對精度容忍度高」的那些層上。MoE 設計(218B 總,25B 啟動)走的是 DeepSeek-V3 和 Llama 4 Behemoth 這一脈 —— 用稀疏啟動讓模型在背 frontier 量級的知識的同時,不背 frontier 量級的推論成本。Apache 2.0 才是真正的戰略差異:Cohere 把自己擺成「開源權重的 frontier 級選項」,跟走閉權重 + 垂直整合的 Anthropic、Google(Code With Claude、Antigravity)以及走工業垂直的 Mistral(收 Emmi)是不同的位。本週已經能看出五家 lab、五個不同的押注。Cohere 押的是「開源權重的 agentic frontier 跑在可達 hardware 上」。

週一上手:如果你的 agentic 負載現在跑在閉源 API 的 frontier 模型上(Claude Opus、GPT-4 級、Gemini Pro),拿 Command A+ 在你自己 eval 集上做一次對比 —— Apache 2.0 意味著你可以 fine-tune、再發布、改它,商業用途也不卡。具體測試:(1) 把你 terminal 風格的 agentic 任務,放在 2 張 H100 上跑 W4A4 的 Command A+,wall-clock 和品質都跟你現在閉源 API 的支出比一比。Terminal-Bench Hard 3%→25% 是夠具體的數字,放到你自己的任務分布上是能驗證的。(2) 看看 128K 輸入 / 64K 最大生成這個預算夠不夠你的 agentic 場景 —— 大多數長視野 agent 是被「輸出生成」卡住的,不是被「輸入上下文」卡住的,所以 64K 最大生成才是真正的硬約束。(3) 如果你因為閉源 API 成本或者資料出域的顧慮,一直沒上 agentic 部署,W4A4 / 2 張 H100 這個部署故事可能正好把這道檻抹掉。再往更大盤的趨勢看:開源權重的 frontier 級 agentic 模型,現在是一個真實的品類,不是未來期權。Cohere 這一手把它落到地上了。接下來一個季度,盯 DeepSeek、Llama、Qwen 會不會跟著出他們自己的 NVFP4 量化、agentic-tuned 版本。

Cohere Command A+:218B 稀疏 MoE(25B 啟動),2x H100 W4A4,Apache 2.0 開源

更多新聞