Google DeepMind lanzó Gemma 4 el 2 de abril bajo la licencia Apache 2.0, el primer release de Gemma bajo una licencia open-source aprobada por la OSI y el movimiento más significativo en la estrategia de pesos abiertos de Google hasta la fecha. Las versiones previas de Gemma se enviaron bajo la "Gemma license", que imponía restricciones de uso comercial que mantuvieron los modelos fuera de muchos pipelines de producción. Apache 2.0 elimina esas restricciones. La familia abarca cuatro tamaños: variantes edge "efectivas" E2B y E4B, un MoE de 26B y un modelo denso de 31B que está en el puesto #3 del leaderboard de modelos abiertos de Arena. Todos los modelos son nativamente multimodales (video, imagen, OCR, comprensión de gráficos con entrada de resolución variable) y agénticos (llamada a funciones, salida JSON estructurada, soporte de instrucciones de sistema). Las variantes edge E2B y E4B además aceptan entrada de audio nativa para reconocimiento y comprensión del habla. Las ventanas de contexto son 128K en edge y hasta 256K en los modelos más grandes, con entrenamiento nativo en más de 140 idiomas.
El cambio de licencia importa tanto como las specs técnicas. Los equipos que querían construir sobre Gemma 3 y descubrieron las cláusulas comerciales en la licencia vieja, a menudo tarde en el proyecto, tenían que elegir entre reescribir contra Llama, Mistral o Qwen, o aceptar las restricciones y explicárselas a los clientes. Apache 2.0 es comercialmente permisiva, amigable con patentes y compatible con la gran mayoría de posturas legales corporativas. Es lo que los compradores empresariales realmente quieren cuando dicen que quieren pesos abiertos. En capacidades, el puesto #3 Arena del modelo denso 31B es real, y el MoE 26B en #6 es fuerte en costo por inferencia. Los modelos edge E2B y E4B son la parte más novedosa de la historia. Multimodal edge-friendly con entrada de audio nativa en una huella efectiva de 2 a 4B es la primera alternativa genuina en dispositivo a los modelos edge propietarios de Apple y Qualcomm, y las ventanas de contexto de 128K son lo suficientemente grandes para cargas reales de procesamiento de documentos en lugar de demos-juguete. Las decisiones de diseño agentic-nativo, con llamada a funciones y JSON estructurado como salidas de primera clase y soporte de instrucciones de sistema a nivel de protocolo, también reducen el andamiaje custom que los equipos vienen escribiendo hace dos años.
El paisaje de pesos abiertos para abril 2026 ahora se ve coherente en lugar de fragmentado. Las advertencias de uso comercial de Llama todavía existen, los términos de licencia de Mistral varían por modelo, Qwen es Apache 2.0 pero carga con riesgos de percepción de origen para algunos compradores, DeepSeek es capaz pero tiene consideraciones geopolíticas similares. Gemma 4 bajo Apache 2.0 desde un lab a escala de Google cambia la conversación de procurement para empresas que quieren pesos abiertos sin exposición regulatoria ni restricciones comerciales. El impacto en el negocio de APIs administradas es más interesante de lo que la mayoría de la cobertura ha reconocido. Si podés correr un modelo de 31B a costo de inferencia grado hogar y obtener calidad #3-en-Arena con llamada a funciones nativa, el caso económico para siempre llamar a la API de Anthropic o de OpenAI se debilita para clases de tareas que no requieren específicamente razonamiento frontera. Eso no amenaza a los laboratorios de punta inmediatamente, porque la calidad de modelo en la frontera sigue siendo el diferenciador para trabajo complejo. Pero comprime el negocio de API de gama media, que es donde la mayoría del volumen realmente vive.
Tres movimientos concretos para constructores. Primero, evaluá Gemma 4 contra lo que sea que estés usando hoy para el tramo medio de tu ruteo de modelos; la licencia Apache 2.0 saca el viejo bloqueo de "no podemos enviar esto a producción", y las capacidades pueden cerrar la brecha de calidad para tareas de volumen. Segundo, las variantes edge E2B y E4B valen la pena prototiparlas para cualquier workflow donde inferencia en dispositivo cambiaría la forma del producto, específicamente datos sensibles a privacidad, operación offline e interacción de baja latencia. El soporte de entrada de audio es específicamente interesante para productos voice-first. Tercero, el diseño agentic-nativo (llamada a funciones como de primera clase, JSON estructurado, instrucciones de sistema) significa menos andamiaje custom para despliegues de agentes. Los equipos que construyeron sus propios shims de llamada a herramientas para Gemma 3 pueden borrar código. El cambio de licencia, no los benchmarks, es el detalle que cambia las conversaciones de roadmap con legal y compras. Si antes argumentabas a favor de una API propietaria porque los pesos abiertos eran "no limpios comercialmente", ese argumento acaba de debilitarse.
