Google DeepMind a livré Gemma 4 le 2 avril sous la licence Apache 2.0, le premier lancement Gemma sous une licence open-source approuvée par l'OSI pis le geste le plus significatif dans la stratégie des poids ouverts de Google à ce jour. Les versions précédentes de Gemma étaient livrées sous la « Gemma license », qui imposait des restrictions d'usage commercial qui gardaient les modèles hors de beaucoup de pipelines en production. Apache 2.0 enlève ces contraintes-là. La famille couvre quatre tailles : les variantes edge « effectives » E2B pis E4B, un MoE 26B, pis un modèle dense 31B qui se classe #3 au Arena leaderboard des modèles ouverts. Tous les modèles sont nativement multimodaux (vidéo, image, OCR, compréhension de graphiques avec entrée à résolution variable) pis agentiques (appel de fonctions, sortie JSON structurée, support d'instructions système). Les variantes edge E2B pis E4B acceptent en plus une entrée audio native pour la reconnaissance pis la compréhension de la parole. Les fenêtres de contexte sont de 128K en edge pis jusqu'à 256K sur les plus gros modèles, avec un entraînement natif sur plus de 140 langues.
Le changement de licence compte autant que les specs techniques. Les équipes qui voulaient bâtir sur Gemma 3 pis qui ont découvert les clauses commerciales dans l'ancienne licence, souvent tard dans le projet, avaient à choisir entre réécrire contre Llama, Mistral ou Qwen, ou accepter les restrictions pis les expliquer aux clients. Apache 2.0 est commercialement permissive, amicale aux brevets, pis compatible avec la vaste majorité des postures légales d'entreprise. C'est ce que les acheteurs d'entreprise veulent vraiment quand ils disent vouloir des poids ouverts. Côté capacités, le classement #3 Arena du modèle dense 31B est réel, pis le MoE 26B au #6 est solide sur le coût à l'inférence. Les modèles edge E2B pis E4B, c'est la partie plus nouvelle de l'histoire. Du multimodal edge-friendly avec entrée audio native dans une empreinte effective de 2 à 4B, c'est la première vraie alternative sur appareil aux modèles edge propriétaires d'Apple pis Qualcomm, pis les fenêtres de contexte de 128K sont assez grandes pour de vraies charges de traitement de documents plutôt que des démos-jouets. Les choix de conception agentic-natifs, avec l'appel de fonctions pis le JSON structuré comme sorties de première classe, pis les instructions système supportées au niveau du protocole, réduisent aussi l'échafaudage maison que les équipes écrivent depuis deux ans.
Le paysage des poids ouverts en avril 2026 a maintenant l'air cohérent plutôt que fragmenté. Les réserves d'usage commercial de Llama existent encore, les termes de licence de Mistral varient par modèle, Qwen est en Apache 2.0 mais porte des risques de perception d'origine pour certains acheteurs, DeepSeek est capable mais a des considérations géopolitiques similaires. Gemma 4 sous Apache 2.0, en provenance d'un labo à l'échelle de Google, change la conversation d'approvisionnement pour les entreprises qui veulent des poids ouverts sans exposition réglementaire ni restrictions commerciales. L'impact sur le business des APIs gérées est plus intéressant que ce que la plupart de la couverture a reconnu. Si tu peux rouler un modèle de 31B à un coût d'inférence de grade domestique pis obtenir la qualité #3-sur-Arena avec appel de fonctions natif, le cas économique pour appeler toujours l'API d'Anthropic ou d'OpenAI s'affaiblit pour les classes de tâches qui demandent pas spécifiquement du raisonnement frontière. Ça menace pas les labos du haut immédiatement, parce que la qualité de modèle à la frontière reste le différenciateur pour le travail complexe. Mais ça compresse le business d'API de milieu de gamme, là où vit la majorité du volume pour vrai.
Trois gestes concrets pour les constructeurs. Premièrement, évalue Gemma 4 contre ce que t'utilises déjà pour le milieu de ta routage de modèles ; la licence Apache 2.0 enlève le vieux blocage « on peut pas livrer ça en production », pis les capacités peuvent fermer l'écart de qualité pour les tâches en vrac. Deuxièmement, les variantes edge E2B pis E4B valent la peine d'être prototypées pour tout workflow où l'inférence sur appareil changerait la forme du produit, spécifiquement les données sensibles à la confidentialité, l'opération hors-ligne, pis l'interaction à faible latence. Le support d'entrée audio est particulièrement intéressant pour les produits orientés voix. Troisièmement, la conception agentic-native (appel de fonctions de première classe, JSON structuré, instructions système) veut dire moins d'échafaudage maison pour les déploiements d'agents. Les équipes qui avaient écrit leurs propres shims d'appel d'outils pour Gemma 3 peuvent supprimer du code. Le changement de licence, pas les benchmarks, c'est le détail qui change les conversations de feuille de route avec le légal pis les achats. Si t'argumentais avant pour une API propriétaire parce que les poids ouverts étaient « pas propres commercialement », cet argument-là vient de s'affaiblir.
