Cohere Command A+: MoE disperso 218B (25B activos), 2x H100 W4A4, Apache 2.0 open

Cohere lanzó Command A+ como peso-abierto Apache 2.0: un transformer Mixture-of-Experts disperso solo-decoder con 218 mil millones de parámetros totales, 25 mil millones activos por token. Topología: 128 expertos con 8 activos por token más 1 experto compartido. Contexto de entrada 128K, generación máxima 64K. La historia de despliegue es el titular para builders: la cuantización W4A4 (NVFP4 aplicada solo a expertos MoE, rutas de atención mantenidas en precisión completa) corre en tan poco como 2 H100 GPUs. Configuraciones alternativas: 1x B200, 4x H100 en FP8, 8x H100 en BF16. Disponible en HuggingFace, soportado por vLLM 0.21.0+ y Transformers. La Destilación con Consciencia de Cuantización post-entrenamiento recupera calidad en W4A4. Cohere posiciona Command A+ como el Command A multimodal unificado (entradas texto, imagen, herramienta; salidas texto, razonamiento, uso de herramienta).

Los deltas de benchmark agéntico versus el Command A Reasoning anterior de Cohere son la señal sustantiva. τ²-Bench Telecom se movió de 37% a 85%. Terminal-Bench Hard coding agéntico fue de 3% a 25%. La precisión de QA agéntica mejoró en 20 puntos porcentuales. El delta Terminal-Bench Hard es el más revelador — ese benchmark prueba resolución de problemas agéntica de línea de comandos multi-paso, y un salto de 3% a 25% en el nivel Hard es un cambio escalonado en fiabilidad de agente para trabajo de sistemas. Cohere apunta a la misma afirmación de capacidad agéntica que el encuadre Capability Curve de Code With Claude de Anthropic (SWE-bench 62%→87% en doce meses) y el encuadre agent-first de Gemini 3.5 Flash de Google, pero con pesos abiertos en lugar de API cerrada. La historia de despliegue W4A4 es lo que diferencia: correr un MoE frontera clase-218B en 2 H100s es el escenario accesible-al-mercado-medio que los modelos frontera peso-cerrado Anthropic/Google/OpenAI no pueden igualar en TCO.

Contexto del ecosistema. NVFP4 (el formato 4-bit que cubrimos en el artículo de pre-entrenamiento NVIDIA del 18 de mayo) es el estándar de cuantización aquí — Cohere lo está usando en las rutas de expertos MoE mientras mantiene la atención en precisión completa. Esa es la forma práctica de la adopción NVFP4: no 4-bit de modelo completo, sino aplicación selectiva a las capas de alto-recuento-de-parámetros tolerantes-a-baja-precisión. El diseño MoE (218B total, 25B activo) sigue el linaje DeepSeek-V3 y Llama 4 Behemoth — la activación dispersa permite al modelo cargar conocimiento de escala frontera sin el costo de inferencia de escala frontera. Apache 2.0 es el diferenciador estratégico: Cohere se posiciona como la opción frontera-clase pesos-abiertos versus Anthropic y Google yendo peso-cerrado vertical (Code With Claude, Antigravity) y Mistral yendo industrial-vertical (adquisición Emmi). Cinco laboratorios, cinco apuestas diferentes visibles esta semana. La apuesta de Cohere es frontera agéntica pesos-abiertos en hardware accesible.

Lunes: si corres cargas agénticas en modelos frontera API-cerrada (Claude Opus, clase-GPT-4, Gemini Pro), evalúa Command A+ en tus propios evals — Apache 2.0 significa que puedes fine-tune, redistribuir, modificar sin restricciones de uso-comercial. Pruebas específicas: (1) corre tus tareas agénticas estilo-terminal contra Command A+ W4A4 en 2 H100s, compara el wall-clock y calidad a tu gasto actual API-cerrada. La afirmación Terminal-Bench Hard 3%→25% es suficientemente concreta para verificar en tu propia distribución de tareas. (2) Evalúa el presupuesto 128K entrada / 64K generación contra tus necesidades de contexto agéntico — la mayoría de los agentes de horizonte largo están limitados por generación de salida, no contexto de entrada, así que 64K generación máxima es la restricción relevante. (3) Si has estado posponiendo despliegue agéntico debido a costo API-cerrada o preocupaciones de salida-de-datos, la historia de despliegue W4A4 / 2-H100 puede cerrar esa brecha. Para la tendencia más amplia: los modelos agénticos pesos-abiertos clase-frontera son ahora una categoría real, no una esperanza futura. Cohere acaba de hacerla concreta. Vigila a DeepSeek, Llama, y Qwen para seguir con sus propios lanzamientos agéntico-afinados cuantizados-NVFP4 durante el próximo trimestre.

Cohere Command A+: MoE disperso 218B (25B activos), 2x H100 W4A4, Apache 2.0 open

Más noticias