Qwen3.6-35B-A3B se lanza bajo Apache 2.0 el día después de Gemma 4, con un MoE disperso que activa solo 3B de 35B parámetros y soporta 262K de contexto nativamente

El equipo Qwen de Alibaba lanzó Qwen3.6-35B-A3B el 16 de abril, un día después del lanzamiento de Gemma 4, y los dos lanzamientos juntos reconfiguran la conversación sobre pesos abiertos. Qwen3.6 es un modelo mixture-of-experts disperso con 35 mil millones de parámetros totales pero solo 3 mil millones activos por pasada hacia adelante, publicado bajo licencia Apache 2.0 en Hugging Face y ModelScope. El modelo está posicionado para codificación agéntica, razonamiento de repositorios, uso de herramientas, trabajo de contexto largo, y tareas multimodales que involucran imágenes o video. El contexto nativo es de 262.144 tokens con extensión YaRN empujando, según reportes, a alrededor de 1 millón. Reportes tempranos de terceros reclaman que el modelo le gana a Gemma 4-31B en varios benchmarks y es competitivo con modelos densos más grandes para despliegue local.

La arquitectura 35B-total, 3B-activo es la elección interesante. Con 3 mil millones de parámetros activos por pasada hacia adelante, Qwen3.6 tiene requerimientos de cómputo de inferencia comparables a un modelo denso de 3B mientras carga el conocimiento y la capacidad de uno mucho más grande. Esa es la victoria teórica del MoE hecha concreta para despliegue local en un solo GPU: necesitás aproximadamente suficiente VRAM para contener los 35B completos, así que territorio de workstation de alta gama, no laptop de consumo, pero el cómputo por token es equivalente a denso-3B, que es lo suficientemente rápido para ser prácticamente útil. La licencia Apache 2.0 remueve la fricción de uso comercial que las licencias Qwen anteriores imponían y pone a Qwen exactamente en el mismo nivel comercial-permisivo que Gemma 4. El soporte multimodal (imágenes y video) coincide con la multimodalidad nativa de Gemma 4. El contexto nativo de 262K y la extensión YaRN de 1M son competitivos con modelos de frontera cerrados para trabajo de documentos largos.

Dos modelos open-weights multimodales-agénticos bajo Apache 2.0 de dos labs diferentes en quince días es un patrón, no una coincidencia. Los labs convergieron en la forma exacta de producto que los compradores empresariales venían pidiendo: licencia comercialmente permisiva, multimodal, listo para agéntico, contexto largo, benchmarks competitivos contra modelos cerrados de gama media. Los compradores pidieron lo suficientemente fuerte, y tanto Alibaba como Google respondieron con unas pocas semanas de diferencia entre sí. La implicación competitiva para el negocio de APIs cerradas de gama media (la capa de volumen, no la frontera) es que capacidad más licencia permisiva más eficiencia MoE más una alternativa de origen no-chino en Google ahora forma una opción de procurement real. La frontera todavía está detrás de puertas cerradas (GPT-5.4, Claude Opus 4.7, Gemini Pro, y la capa cerrada Mythos y GPT-Rosalind), pero la capa de volumen está siendo comida por pesos abiertos más rápido de lo que la mayoría de los vendors establecidos presupuestaron hace un año.

Para equipos con una carga de agente de código, razonamiento de repositorios o uso de herramientas, Qwen3.6-35B-A3B vale la pena benchmarkearlo contra lo que usás actualmente para la franja de 3B a 8B de parámetros activos. La arquitectura MoE ayuda específicamente si tenés el presupuesto de VRAM para contener los pesos completos pero querés latencia de inferencia denso-3B; es un tradeoff útil para generación de código en lote y razonamiento de contexto largo. Para equipos con sensibilidad geopolítica, la preocupación por el origen Qwen es real y necesita una revisión de riesgo-y-compliance antes del uso en producción, sin importar la permisividad de la licencia; esa revisión es separada y adicional a los reclamos de capacidad del modelo. Para todos, la señal es que la gama media de pesos abiertos ahora es una categoría de procurement genuina con múltiples opciones Apache 2.0 creíbles, y el stack correcto en 2026 probablemente rutea intención por costo y capacidad a través de Gemma-o-Qwen abierto para volumen y modelos de frontera cerrados para el 10 por ciento de tareas duras que realmente los necesitan.

Qwen3.6-35B-A3B se lanza bajo Apache 2.0 el día después de Gemma 4, con un MoE disperso que activa solo 3B de 35B parámetros y soporta 262K de contexto nativamente

Más noticias