O Google DeepMind lançou o Gemma 4 em 2 de abril sob a licença Apache 2.0, o primeiro release do Gemma sob uma licença open-source aprovada pela OSI e o movimento mais significativo na estratégia de pesos abertos do Google até hoje. Versões anteriores do Gemma saíram sob a "Gemma license", que impunha restrições de uso comercial que mantinham os modelos fora de muitos pipelines de produção. A Apache 2.0 remove essas restrições. A família cobre quatro tamanhos: variantes edge "efetivas" E2B e E4B, um MoE de 26B e um modelo denso de 31B que está em #3 no leaderboard de modelos abertos da Arena. Todos os modelos são nativamente multimodais (vídeo, imagem, OCR, compreensão de gráficos com entrada de resolução variável) e agênticos (chamada de função, saída JSON estruturada, suporte a instruções de sistema). As variantes edge E2B e E4B aceitam ainda entrada de áudio nativa para reconhecimento e compreensão de fala. As janelas de contexto são 128K em edge e até 256K nos modelos maiores, com treinamento nativo em mais de 140 idiomas.

A mudança de licença importa tanto quanto as specs técnicas. Times que queriam construir sobre o Gemma 3 e descobriram as cláusulas comerciais na licença antiga, muitas vezes tarde no projeto, tinham que escolher entre reescrever contra Llama, Mistral ou Qwen, ou aceitar as restrições e explicá-las aos clientes. A Apache 2.0 é comercialmente permissiva, amigável a patentes e compatível com a vasta maioria das posturas jurídicas corporativas. É o que compradores empresariais realmente querem quando dizem que querem pesos abertos. Em capacidades, o #3 Arena do modelo denso 31B é real, e o MoE 26B em #6 é forte em custo por inferência. Os modelos edge E2B e E4B são a parte mais nova da história. Multimodal edge-friendly com entrada de áudio nativa em uma pegada efetiva de 2 a 4B é a primeira alternativa genuína em dispositivo aos modelos edge proprietários da Apple e da Qualcomm, e janelas de contexto de 128K são grandes o bastante para cargas reais de processamento de documentos em vez de demos de brinquedo. Decisões de design agêntico-nativo, com chamada de função e JSON estruturado como saídas de primeira classe e instruções de sistema suportadas em nível de protocolo, também reduzem o andaime custom que os times vêm escrevendo há dois anos.

O panorama de pesos abertos em abril de 2026 agora parece coerente em vez de fragmentado. As ressalvas de uso comercial do Llama ainda existem, os termos de licença da Mistral variam por modelo, o Qwen é Apache 2.0 mas carrega riscos de percepção de origem para alguns compradores, o DeepSeek é capaz mas tem considerações geopolíticas semelhantes. Gemma 4 sob Apache 2.0, vindo de um laboratório na escala do Google, muda a conversa de procurement para empresas que querem pesos abertos sem exposição regulatória ou restrições comerciais. O impacto no negócio de APIs gerenciadas é mais interessante do que a maior parte da cobertura reconheceu. Se você consegue rodar um modelo de 31B a custo de inferência nível caseiro e obter qualidade #3-na-Arena com chamada de função nativa, o caso econômico de sempre chamar a API da Anthropic ou da OpenAI enfraquece para classes de tarefas que não exigem especificamente raciocínio de fronteira. Isso não ameaça os laboratórios de topo imediatamente, porque qualidade de modelo na fronteira continua sendo o diferenciador para trabalho complexo. Mas comprime o negócio de API de gama média, onde vive de fato a maior parte do volume.

Três movimentos concretos para quem constrói. Primeiro, avalie o Gemma 4 contra o que você estiver usando hoje para a faixa média do seu roteamento de modelos; a licença Apache 2.0 retira o velho bloqueio de "não podemos enviar isso em produção", e as capacidades podem fechar a lacuna de qualidade em tarefas de volume. Segundo, as variantes edge E2B e E4B valem a pena serem prototipadas para qualquer workflow em que inferência em dispositivo mudaria a forma do produto, especificamente dados sensíveis a privacidade, operação offline e interação de baixa latência. O suporte a entrada de áudio é especificamente interessante para produtos voice-first. Terceiro, o design agêntico-nativo (chamada de função como de primeira classe, JSON estruturado, instruções de sistema) significa menos andaime custom para deploys de agentes. Times que construíram seus próprios shims de chamada de ferramenta para Gemma 3 podem apagar código. A mudança de licença, não os benchmarks, é o detalhe que muda as conversas de roadmap com o jurídico e com compras. Se você antes argumentava por uma API proprietária porque pesos abertos eram "não limpos comercialmente", esse argumento acaba de enfraquecer.