Cohere a sorti Command A+ en open-weight Apache 2.0 : un transformer sparse Mixture-of-Experts decoder-only avec 218 milliards de paramètres totaux, 25 milliards actifs par token. Topologie : 128 experts avec 8 actifs par token plus 1 shared expert. Context input 128K, generation max 64K. La story de déploiement c'est le headline pour les builders : la quantization W4A4 (NVFP4 appliquée aux experts MoE seulement, paths d'attention gardés full precision) tourne sur aussi peu que 2 H100s. Configurations alternatives : 1x B200, 4x H100 à FP8, 8x H100 à BF16. Available sur HuggingFace, supporté par vLLM 0.21.0+ et Transformers. Le post-training Quantization-Aware Distillation recouvre la quality à W4A4. Cohere positionne Command A+ comme le Command A multimodal unifié (inputs text, image, tool ; outputs text, reasoning, tool use).

Les deltas de benchmark agentic versus le Command A Reasoning précédent de Cohere c'est le signal substantif. τ²-Bench Telecom est passé de 37% à 85%. Terminal-Bench Hard agentic coding a fait 3% à 25%. L'accuracy Agentic QA s'est améliorée de 20 points de pourcentage. Le delta Terminal-Bench Hard c'est le plus parlant — ce benchmark teste du problem-solving agentic command-line multi-step, et un saut 3% à 25% sur le tier Hard c'est un step change dans la fiabilité d'agent pour du systems work. Cohere target le même claim de capability agentic qu'Anthropic avec le cadrage Capability Curve de Code With Claude (SWE-bench 62%→87% en douze mois) et qu'avec le framing agent-first de Gemini 3.5 Flash de Google, mais avec des open weights au lieu d'API fermée. La story de déploiement W4A4 c'est ce qui différentie : rouler un MoE frontier classe-218B sur 2 H100s c'est le scenario accessible-to-mid-market que les modèles frontier closed-weight Anthropic/Google/OpenAI peuvent pas matcher sur le TCO.

Contexte écosystème. NVFP4 (le format 4-bit qu'on a couvert dans le piece pre-training NVIDIA du 18 mai) c'est le standard de quantization ici — Cohere l'utilise sur les paths d'expert MoE en gardant l'attention à full precision. C'est la forme pratique de l'adoption NVFP4 : pas du full-model 4-bit, mais une application sélective aux layers high-parameter-count low-precision-tolerant. Le design MoE (218B total, 25B actif) suit la lignée DeepSeek-V3 et Llama 4 Behemoth — l'activation sparse permet au modèle de porter de la knowledge frontier-scale sans le coût d'inférence frontier-scale. Apache 2.0 c'est le différentiateur stratégique : Cohere se positionne comme l'option open-weights frontier-class versus Anthropic et Google qui vont closed-weight vertical (Code With Claude, Antigravity) et Mistral qui va industrial-vertical (acquisition Emmi). Cinq labs, cinq paris différents visibles cette semaine. Le pari de Cohere c'est de l'open-weights agentic frontier sur du hardware accessible.

Lundi matin : si tu roules des workloads agentic sur des modèles frontier closed-API (Claude Opus, classe-GPT-4, Gemini Pro), benchmark Command A+ sur tes propres evals — Apache 2.0 veut dire que tu peux fine-tuner, redistribuer, modifier sans restrictions commercial-use. Tests spécifiques : (1) roule tes tâches agentic terminal-style contre Command A+ W4A4 sur 2 H100s, compare le wall-clock et la quality à ton spend closed-API actuel. Le claim Terminal-Bench Hard 3%→25% est assez concret pour vérifier sur ta propre distribution de tâches. (2) Évalue le budget 128K input / 64K generation contre tes besoins de context agentic — la plupart des agents long-horizon sont bornés par la output generation, pas le input context, donc 64K max generation c'est la constraint pertinente. (3) Si t'as held off sur du déploiement agentic à cause du coût closed-API ou des concerns de data-egress, la story de déploiement W4A4 / 2-H100 peut close ce gap. Pour le trend plus large : les modèles agentic frontier-class open-weights sont maintenant une catégorie réelle, pas un espoir futur. Cohere vient de la rendre concrète. Watch DeepSeek, Llama, et Qwen pour suivre avec leurs propres releases agentic-tunées NVFP4-quantized sur le prochain trimestre.