Google liberó hoy drafters Multi-Token Prediction (MTP) para Gemma 4 — modelos drafter livianos pre-entrenados que se emparejan con el Gemma target para hacer speculative decoding out of the box. Claim titular: hasta 3x más rápida inferencia con output token-by-token idéntico al modelo target. El drafter propone una secuencia de tokens futuros; el target los verifica en paralelo. Cuando la verificación rechaza un token draft, la generación fall back a la predicción real del target en esa posición, así la calidad se preserva bit-exactamente. El detalle arquitectónico que importa: los drafters comparten el KV cache y las activaciones del target, lo que evita el overhead estándar del speculative-decoding de correr dos modelos independientes con estados de cache separados. Las variantes edge (E2B, E4B) tienen una «técnica de clustering eficiente en la capa embedder» para abordar el bottleneck de cálculo de logit que domina la inferencia de modelos chicos. Apache 2.0, pesos en Hugging Face y Kaggle.
Speculative decoding ha sido la optimización de inferencia caliente por dos años, pero en la práctica, los builders han tenido que o entrenar sus propios drafters (trabajo significativo), o usar drafters small-model genéricos que no capturan bien la distribución del target (tasas de aceptación mediocres). Google shipeando drafters pre-entrenados específicamente tuneados para Gemma 4 cierra esa brecha — speedup 3x drop-in sin costo de training del lado del builder. El compartir KV-cache es la elección arquitectónicamente significativa: las implementaciones estándar de speculative decoding como la de vLLM emparejan un draft model arbitrario con el target y pagan costos de cache duplicados. Compartir el estado KV significa menos footprint de memoria y rounds de verificación más rápidos. La comparación a EAGLE (que usa los hidden states del target para el drafting) y Medusa (que agrega heads de predicción al target) no se divulga en la cobertura del lanzamiento; por la descripción, los drafters MTP se ven más cerca de EAGLE en espíritu pero con pesos drafter livianos separados en lugar de heads target adicionales.
La lectura ecosystem: el speculative decoding se está volviendo una baseline esperada para inferencia en producción sobre modelos open-weight, y los labs que shipean drafters pre-entrenados junto a sus checkpoints principales bajan la barrera significativamente. DeepSeek V3 shipeó heads MTP construidos en el modelo. El tier de codeo de Mistral Medium 3.5 se sienta adyacente a esto, aunque el enfoque drafter ahí no se divulgó. Google haciendo los drafters módulos separados-pero-cache-compartidos es la elección de diseño que deja a los builders pull solo el drafter para su deploy Gemma 4 existente en lugar de recargar un checkpoint unificado MTP-enabled. Para builders corriendo Gemma 4 self-hosted en producción, el path de upgrade es: descargar el drafter MTP correspondiente, enchufarlo en tu framework de inferencia si soporta speculative decoding KV-shared (vLLM y TensorRT-LLM ambos lo hacen, con config), medir tasa de aceptación en tu tráfico. La tasa de aceptación determina el speedup real — 3x es el caso optimista, el real es workload-dependiente.
Movida práctica: si estás corriendo Gemma 4 en producción para chat, code completion, o inferencia baja-latencia, esta es la optimización a probar esta semana. Pull el drafter MTP, swap a tu stack de inferencia, medí latencia y tasa de aceptación en tus prompts reales. El claim «sin pérdida de calidad» es verificable token-by-token comparando outputs contra el target no-MTP — corré ese diff sobre un sample de requests de producción como tu sanity check. Para deploy edge de Gemma 4 E2B/E4B, la optimización de clustering de capa embedder apunta específicamente al bottleneck de logit-calc que limita la latencia small-model en silicio móvil/edge — ese es el caso donde el speculative decoding usualmente no se paga, y el fix de Google es el detalle arquitectónico a leer cuidadosamente si shipeás Gemma 4 on-device. La licencia Apache 2.0 mantiene el camino comercial abierto sin fricción de negociación. La próxima vigilia es si otros labs open-weight siguen con módulos drafter pre-entrenados — una vez que es table stakes, el impuesto speculative-decoding-from-scratch desaparece a través del ecosistema abierto.
