Google a lancé Gemma 4 aujourd'hui en quatre tailles : Effective 2B, Effective 4B, 26B Mixture of Experts, et 31B Dense, affirmant que leur modèle 31B se classe #3 sur le leaderboard texte d'Arena AI tandis que le 26B obtient la #6. Les modèles fonctionnent sous licence Apache 2.0 et sont construits à partir de la même recherche que Gemini 3, avec Google qui met l'accent sur l'efficacité « intelligence-par-paramètre » qui leur permettrait soi-disant de « surpasser des modèles 20 fois plus gros ».

Le timing est intéressant. Google pousse fort vers les modèles ouverts juste au moment où la communauté débat si le développement véritablement ouvert peut compétitionner avec les systèmes fermés. Leur affirmation de 400 millions de téléchargements pour les versions précédentes de Gemma suggère une adoption réelle, mais les classements Arena AI peuvent être manipulés et ne reflètent pas toujours la performance en conditions réelles. L'accent sur l'efficacité des paramètres compte plus que les classements—si un modèle 26B performe vraiment comme un modèle 500B+, c'est un game-changer matériel pour les développeurs qui font de l'inférence à grande échelle.

Google n'a fourni aucune vérification indépendante de leurs affirmations de performance, et j'ai pas pu trouver de couverture d'autres sources pour corroborer les classements Arena AI qu'ils citent. L'accent sur les « agentic workflows » et le « raisonnement avancé » ressemble au marketing standard de lancement de modèle, mais le ciblage matériel spécifique—des appareils Android aux GPU d'ordinateurs portables—suggère qu'ils sont sérieux concernant le déploiement en périphérie.

Pour les développeurs, le vrai test c'est pas la position sur le leaderboard mais si ces modèles livrent vraiment des capacités de pointe sur du matériel grand public. Si les affirmations d'efficacité tiennent la route, Gemma 4 pourrait démocratiser l'accès au raisonnement AI avancé. Sinon, c'est juste un autre lancement de modèle sur-médiatisé avec des benchmarks triés sur le volet.