Cohere Command A+: MoE esparso 218B (25B ativos), 2x H100 W4A4, Apache 2.0 open

A Cohere lançou Command A+ como peso-aberto Apache 2.0: um transformer Mixture-of-Experts esparso só-decoder com 218 bilhões de parâmetros totais, 25 bilhões ativos por token. Topologia: 128 experts com 8 ativos por token mais 1 expert compartilhado. Contexto de entrada 128K, geração máxima 64K. A história de deploy é a manchete para builders: a quantização W4A4 (NVFP4 aplicada apenas a experts MoE, caminhos de atenção mantidos em precisão completa) roda em tão pouco quanto 2 H100 GPUs. Configurações alternativas: 1x B200, 4x H100 em FP8, 8x H100 em BF16. Disponível no HuggingFace, suportado por vLLM 0.21.0+ e Transformers. A Destilação com Consciência de Quantização pós-treinamento recupera qualidade em W4A4. A Cohere posiciona Command A+ como o Command A multimodal unificado (entradas texto, imagem, ferramenta; saídas texto, raciocínio, uso de ferramenta).

Os deltas de benchmark agêntico versus o Command A Reasoning anterior da Cohere são o sinal substantivo. τ²-Bench Telecom moveu de 37% a 85%. Terminal-Bench Hard coding agêntico foi de 3% a 25%. A precisão de QA agêntica melhorou em 20 pontos percentuais. O delta Terminal-Bench Hard é o mais revelador — esse benchmark testa resolução de problemas agêntica de linha de comando multi-passo, e um salto de 3% a 25% no nível Hard é uma mudança escalonada em confiabilidade de agente para trabalho de sistemas. A Cohere mira a mesma alegação de capacidade agêntica que o framing Capability Curve do Code With Claude da Anthropic (SWE-bench 62%→87% em doze meses) e o framing agent-first do Gemini 3.5 Flash do Google, mas com pesos abertos em vez de API fechada. A história de deploy W4A4 é o que diferencia: rodar um MoE fronteira classe-218B em 2 H100s é o cenário acessível-para-mercado-médio que os modelos fronteira peso-fechado Anthropic/Google/OpenAI não conseguem igualar em TCO.

Contexto do ecossistema. NVFP4 (o formato 4-bit que cobrimos no artigo de pré-treinamento NVIDIA de 18 de maio) é o padrão de quantização aqui — a Cohere o está usando nos caminhos de experts MoE enquanto mantém a atenção em precisão completa. Essa é a forma prática da adoção NVFP4: não 4-bit de modelo completo, mas aplicação seletiva às camadas de alto-contagem-de-parâmetros tolerantes-a-baixa-precisão. O design MoE (218B total, 25B ativo) segue a linhagem DeepSeek-V3 e Llama 4 Behemoth — a ativação esparsa permite ao modelo carregar conhecimento de escala fronteira sem o custo de inferência de escala fronteira. Apache 2.0 é o diferenciador estratégico: a Cohere se posiciona como a opção fronteira-classe pesos-abertos versus Anthropic e Google indo peso-fechado vertical (Code With Claude, Antigravity) e Mistral indo industrial-vertical (aquisição Emmi). Cinco laboratórios, cinco apostas diferentes visíveis esta semana. A aposta da Cohere é fronteira agêntica pesos-abertos em hardware acessível.

Segunda-feira: se você roda cargas agênticas em modelos fronteira API-fechada (Claude Opus, classe-GPT-4, Gemini Pro), avalie Command A+ em seus próprios evals — Apache 2.0 significa que você pode fine-tune, redistribuir, modificar sem restrições de uso-comercial. Testes específicos: (1) rode suas tarefas agênticas estilo-terminal contra Command A+ W4A4 em 2 H100s, compare o wall-clock e qualidade ao seu gasto atual API-fechada. A alegação Terminal-Bench Hard 3%→25% é suficientemente concreta para verificar em sua própria distribuição de tarefas. (2) Avalie o orçamento 128K entrada / 64K geração contra suas necessidades de contexto agêntico — a maioria dos agentes de horizonte longo são limitados por geração de saída, não contexto de entrada, então 64K geração máxima é a restrição relevante. (3) Se você esteve adiando deploy agêntico devido a custo API-fechada ou preocupações de saída-de-dados, a história de deploy W4A4 / 2-H100 pode fechar essa lacuna. Para a tendência mais ampla: modelos agênticos pesos-abertos classe-fronteira são agora uma categoria real, não uma esperança futura. A Cohere acabou de torná-la concreta. Observe DeepSeek, Llama, e Qwen para seguir com seus próprios lançamentos agêntico-afinados quantizados-NVFP4 durante o próximo trimestre.

Cohere Command A+: MoE esparso 218B (25B ativos), 2x H100 W4A4, Apache 2.0 open

Mais notícias