Cohere Command A+:218B 稀疏 MoE(25B 激活),2x H100 W4A4,Apache 2.0 开源

Cohere 把 Command A+ 用 Apache 2.0 开源权重发了出来:decoder-only 的稀疏 Mixture-of-Experts transformer,218B 总参,每 token 激活 25B。拓扑:128 个 expert,每 token 激活 8 个,外加 1 个 shared expert。输入 context 128K,最大生成 64K。对 builder 来说最像 headline 的是部署故事:W4A4 量化(NVFP4 只用在 MoE expert 上,attention path 保持 full precision)下,2 张 H100 就能跑起来。其他配置:1 张 B200、4 张 H100 FP8、8 张 H100 BF16。HuggingFace 已上,vLLM 0.21.0+ 和 Transformers 都支持。后训练用 Quantization-Aware Distillation 把 W4A4 下的质量找回。Cohere 把 Command A+ 摆成一个统一的多模态 Command A(输入 text、image、tool;输出 text、reasoning、tool use)。

对比上一版 Command A Reasoning 的 agentic benchmark 增量,才是真正有信号的地方。τ²-Bench Telecom 从 37% 涨到 85%。Terminal-Bench Hard agentic coding 从 3% 涨到 25%。Agentic QA 准确率提高 20 个百分点。Terminal-Bench Hard 那个差距是最说明问题的 —— 它测的是命令行下、多步、agentic 的解题能力,Hard 档从 3% 跳到 25% 是 agent 在系统类工作上可靠性的台阶式提升。Cohere 在追的是和 Anthropic 在 Code With Claude 上端出来的 Capability Curve(SWE-bench 一年 62%→87%)以及 Google Gemini 3.5 Flash 「agent-first」一样的 agentic capability 叙事,但是用开源权重,而不是闭源 API。W4A4 这个部署故事才是差异化的地方:把一个 218B 级别的 frontier MoE 跑在 2 张 H100 上,这是闭权重的 Anthropic / Google / OpenAI frontier 模型在 TCO 上很难匹的「可达中端市场」场景。

生态背景。NVFP4(我们 5 月 18 日那篇 NVIDIA 预训练里覆盖过的 4-bit 格式)就是这次的量化标准 —— Cohere 是把它用在 MoE expert 通路,attention 仍然保持 full precision。这就是 NVFP4 实际落地的样子:不是整模型 4-bit,而是选择性地用在「参数多、对精度容忍度高」的那些层上。MoE 设计(218B 总,25B 激活)走的是 DeepSeek-V3 和 Llama 4 Behemoth 这一脉 —— 用稀疏激活让模型在背 frontier 量级的知识的同时,不背 frontier 量级的推理成本。Apache 2.0 才是真正的战略差异:Cohere 把自己摆成「开源权重的 frontier 级选项」,跟走闭权重 + 垂直整合的 Anthropic、Google(Code With Claude、Antigravity)以及走工业垂直的 Mistral(收 Emmi)是不同的位。本周已经能看出五家 lab、五个不同的押注。Cohere 押的是「开源权重的 agentic frontier 跑在可达 hardware 上」。

周一上手:如果你的 agentic 负载现在跑在闭源 API 的 frontier 模型上(Claude Opus、GPT-4 级、Gemini Pro),拿 Command A+ 在你自己 eval 集上做一次对比 —— Apache 2.0 意味着你可以 fine-tune、再发布、改它,商业用途也不卡。具体测试:(1) 把你 terminal 风格的 agentic 任务,放在 2 张 H100 上跑 W4A4 的 Command A+,wall-clock 和质量都跟你现在闭源 API 的支出比一比。Terminal-Bench Hard 3%→25% 是够具体的数字,放到你自己的任务分布上是能验证的。(2) 看看 128K 输入 / 64K 最大生成这个预算够不够你的 agentic 场景 —— 大多数长视野 agent 是被「输出生成」卡住的,不是被「输入上下文」卡住的,所以 64K 最大生成才是真正的硬约束。(3) 如果你因为闭源 API 成本或者数据出域的顾虑,一直没上 agentic 部署,W4A4 / 2 张 H100 这个部署故事可能正好把这道坎抹掉。再往更大盘的趋势看:开源权重的 frontier 级 agentic 模型,现在是一个真实的品类,不是未来期权。Cohere 这一手把它落到地上了。接下来一个季度,盯 DeepSeek、Llama、Qwen 会不会跟着出他们自己的 NVFP4 量化、agentic-tuned 版本。

Cohere Command A+:218B 稀疏 MoE(25B 激活),2x H100 W4A4,Apache 2.0 开源

更多新闻