Dr. Károly Zsolnai-Fehér de Two Minute Papers a publié une explication sur la sortie Gemma 4 de Google DeepMind, pis ça vaut la peine d'être regardé si t'es en train de faire un choix de modèle pour 2026. Le travail de la chaîne, c'est de prendre des annonces de recherche, de lire à travers l'expérience pratique de la communauté pendant une couple de semaines, pis de retourner un verdict plutôt que de poster de la hype le jour même. Le verdict ici est favorable avec des réserves. Gemma 4 a touché 10 millions de téléchargements dans la première semaine, la plus petite variante roule sur des téléphones hors-ligne (pis, fameusement dans cette vidéo, sur une Nintendo Switch de première génération), pis la licence Apache 2.0 enlève enfin les menottes commerciales que l'ancienne licence Gemma imposait. J'ai écrit sur le changement de licence pis le positionnement à la frontière multimodale-agentique hier ; cette vidéo remplit l'architecture technique pour laquelle j'avais pas d'espace.
Quatre détails architecturaux valent la peine d'être sortis. Premièrement, les données d'entraînement sont curatées plutôt que scrapées, ce que Károly cadre comme « laisse pas tout rentrer, curate ta diète d'information », pis c'est un bon conseil pour les modèles pis pour les humains. Deuxièmement, l'attention hybride : une fenêtre coulissante locale plus une passe d'attention globale, le même modèle qui zoome sur les détails au niveau de la phrase tout en suivant le contexte au niveau du livre. Troisièmement, une compréhension d'images native qui garde les rapports d'aspect en paysage plutôt que de les écraser en carré (ce que Gemma 3 faisait, pis qui cassait discrètement les benchmarks d'images). Quatrièmement, un KV-cache partagé à travers les couches, fait que les couches plus tardives empruntent de la mémoire déjà calculée par les plus précoces au lieu de recommencer à zéro. Individuellement, c'est incrémental. Ensemble, ça explique comment le modèle dense 31B bat certains concurrents MoE 10x plus gros sur des benchmarks où les modèles denses étaient supposés avoir perdu il y a des années.
Le cadrage « cadeau à l'humanité » est sincère pis mérite d'être pris à sa valeur faciale. Károly conclut avec un contraste spécifique : Gemma 4 qui atterrit en même temps qu'un modèle frontière « vient juste d'être verrouillé pour quelques clients sélectionnés ». C'est une référence directe au patron d'accès barré que j'ai couvert hier (Anthropic Mythos, OpenAI GPT-Rosalind, qui vont chez des partenaires cybersécurité pis pharma seulement). La logique émotionnelle de la vidéo, c'est que Gemma 4 à poids ouverts est un contrepoids à ce verrouillage, une chose qu'« ils » peuvent pas t'enlever. La réalité pratique est plus nuancée. Des poids ouverts qui roulent sur un téléphone concurrencent pas une capacité frontière derrière une porte Trusted Access. Ils concurrencent l'accès API généraliste (GPT-5.4, Claude Opus 4.7) pour les charges où un modèle 13B ou 31B est assez bon. Pour la plupart des constructeurs, la plupart du temps, c'est assez bon.
Si tu pèses si ajouter Gemma 4 à ta pile, regarde cette vidéo pis teste les variantes 26B MoE pis 31B dense contre ta vraie charge de travail. Les réserves honnêtes de Károly sont la partie utile. Le modèle a pas de base de données vivante, fait qu'il va être confidemment dans le champ sans un harnais d'agent ; il galère avec les tâches complexes ouvertes ; il a encore des yeux faibles sur les détails visuels fins comme les brins d'herbe ou les clôtures lointaines. Ça correspond à la réalité des benchmarks. Pour les charges non-code, non-raisonnement-frontière (résumé, traduction, usage d'outils agentique routinier, inférence sur appareil), Gemma 4 est maintenant la base ouverte par défaut contre laquelle ça vaut la peine de mesurer tout le reste. La licence Apache 2.0 le rend amical à l'approvisionnement d'une façon que Gemma 3 l'a jamais été. Pis si t'avais besoin d'une explication interne convaincante à remettre à un stakeholder sceptique, Two Minute Papers fait ce travail-là en huit minutes.