Google a release aujourd'hui des drafters Multi-Token Prediction (MTP) pour Gemma 4 — modèles drafters légers pré-entraînés qui s'apparient avec le Gemma cible pour faire du speculative decoding out of the box. Claim manchette : jusqu'à 3x plus rapide en inférence avec output token-by-token identique au modèle cible. Le drafter propose une séquence de tokens futurs ; la cible les vérifie en parallèle. Quand la vérification rejette un token draft, la génération fall back à la prédiction réelle de la cible à cette position, donc la qualité est préservée bit-exactement. Le détail architectural qui compte : les drafters partagent le KV cache et les activations de la cible, ce qui contourne l'overhead standard du speculative-decoding qui est de faire tourner deux modèles indépendants avec des states de cache séparés. Les variantes edge (E2B, E4B) ont une « technique de clustering efficace dans la couche embedder » pour adresser le bottleneck de calcul de logit qui domine l'inférence de petits modèles. Apache 2.0, poids sur Hugging Face et Kaggle.

Le speculative decoding a été l'optimisation d'inférence chaude depuis deux ans, mais en pratique, les builders ont dû soit entraîner leurs propres drafters (travail significatif), soit utiliser des drafters small-model génériques qui ne capturent pas bien la distribution de la cible (taux d'acceptation médiocres). Google qui ship des drafters pré-entraînés spécifiquement tunés pour Gemma 4 ferme ce gap — speedup 3x drop-in sans coût de training côté builder. Le partage KV-cache est le choix architecturalement signifiant : les implémentations standards de speculative decoding comme celle de vLLM apparient un draft model arbitraire avec la cible et paient des coûts de cache dupliqués. Partager l'état KV veut dire moins de footprint mémoire et des rounds de vérification plus rapides. La comparaison à EAGLE (qui utilise les hidden states de la cible pour le drafting) et Medusa (qui ajoute des heads de prédiction à la cible) n'est pas divulguée dans la couverture du launch ; d'après la description, les drafters MTP ressemblent plus à EAGLE en esprit mais avec des poids drafter légers séparés plutôt que des heads cible additionnels.

La lecture ecosystem : le speculative decoding devient une baseline attendue pour l'inférence en prod sur les modèles open-weight, et les labs qui shippent des drafters pré-entraînés à côté de leurs checkpoints principaux baissent la barrière significativement. DeepSeek V3 a shippé des heads MTP intégrés dans le modèle. Le tier coding de Mistral Medium 3.5 sit adjacent à ça, bien que l'approche drafter là-bas ne soit pas divulguée. Google qui fait des drafters des modules séparés-mais-cache-partagés est le choix de design qui laisse les builders pull juste le drafter pour leur déploiement Gemma 4 existant plutôt que recharger un checkpoint unifié MTP-enabled. Pour les builders qui font tourner du Gemma 4 self-hosted en prod, le path d'upgrade c'est : download le drafter MTP correspondant, plug dans ton framework d'inférence s'il supporte le speculative decoding KV-shared (vLLM et TensorRT-LLM le font tous deux, avec config), mesure le taux d'acceptation sur ton trafic. Le taux d'acceptation détermine le speedup réel — 3x est le cas optimiste, le réel est workload-dépendant.

Move pratique : si tu fais tourner Gemma 4 en prod pour du chat, du code completion, ou de l'inférence basse-latence, c'est l'optimisation à tester cette semaine. Pull le drafter MTP, swap dans ta stack d'inférence, mesure la latence et le taux d'acceptation sur tes prompts réels. Le claim « pas de perte de qualité » est vérifiable token-by-token en comparant les outputs contre la cible non-MTP — run ce diff sur un sample de requêtes prod comme ton sanity check. Pour le déploiement edge de Gemma 4 E2B/E4B, l'optimisation de clustering de la couche embedder cible spécifiquement le bottleneck de logit-calc qui limite la latence small-model sur silicium mobile/edge — c'est le cas où le speculative decoding ne paie habituellement pas, et le fix de Google est le détail architectural à lire attentivement si tu ship du Gemma 4 on-device. La licence Apache 2.0 garde le path commercial ouvert sans friction de négociation. Le prochain watch, c'est si d'autres labs open-weight suivent avec des modules drafter pré-entraînés — une fois que c'est table stakes, la taxe speculative-decoding-from-scratch disparaît à travers l'écosystème ouvert.