O Google lançou hoje drafters Multi-Token Prediction (MTP) para Gemma 4 — modelos drafter leves pré-treinados que se pareiam com o Gemma alvo para fazer speculative decoding out of the box. Claim manchete: até 3x mais rápida inferência com output token-by-token idêntico ao modelo alvo. O drafter propõe uma sequência de tokens futuros; o alvo os verifica em paralelo. Quando a verificação rejeita um token draft, a geração faz fall back à predição real do alvo nessa posição, então a qualidade é preservada bit-exatamente. O detalhe arquitetural que importa: os drafters compartilham o KV cache e as ativações do alvo, o que evita o overhead padrão do speculative-decoding de rodar dois modelos independentes com estados de cache separados. As variantes edge (E2B, E4B) têm uma «técnica de clustering eficiente na camada embedder» para endereçar o bottleneck de cálculo de logit que domina a inferência de modelos pequenos. Apache 2.0, pesos no Hugging Face e Kaggle.
Speculative decoding tem sido a otimização de inferência quente por dois anos, mas na prática, builders tiveram que ou treinar seus próprios drafters (trabalho significativo), ou usar drafters small-model genéricos que não capturam bem a distribuição do alvo (taxas de aceitação medíocres). O Google shipando drafters pré-treinados especificamente tunados para Gemma 4 fecha essa brecha — speedup 3x drop-in sem custo de treino do lado do builder. O compartilhamento de KV-cache é a escolha arquiteturalmente significativa: implementações padrão de speculative decoding como a do vLLM pareiam um draft model arbitrário com o alvo e pagam custos de cache duplicados. Compartilhar o estado KV significa menos footprint de memória e rounds de verificação mais rápidos. A comparação ao EAGLE (que usa os hidden states do alvo para drafting) e Medusa (que adiciona heads de predição ao alvo) não é divulgada na cobertura do lançamento; pela descrição, os drafters MTP parecem mais próximos do EAGLE em espírito mas com pesos drafter leves separados em vez de heads alvo adicionais.
A leitura ecossistema: speculative decoding está virando baseline esperada para inferência em produção em modelos open-weight, e labs que shipam drafters pré-treinados junto com seus checkpoints principais baixam a barreira significativamente. O DeepSeek V3 shipou heads MTP construídos no modelo. O tier de codagem do Mistral Medium 3.5 fica adjacente a isso, embora a abordagem drafter lá não tenha sido divulgada. O Google fazer os drafters módulos separados-mas-cache-compartilhados é a escolha de design que deixa builders pegarem só o drafter para seu deploy Gemma 4 existente em vez de recarregar um checkpoint unificado MTP-enabled. Para builders rodando Gemma 4 self-hosted em produção, o caminho de upgrade é: baixe o drafter MTP correspondente, plugue no seu framework de inferência se ele suporta speculative decoding KV-shared (vLLM e TensorRT-LLM ambos suportam, com config), meça a taxa de aceitação no seu tráfego. A taxa de aceitação determina o speedup real — 3x é o caso otimista, o real é workload-dependente.
Movimento prático: se você roda Gemma 4 em produção para chat, code completion, ou inferência baixa-latência, essa é a otimização para testar esta semana. Puxe o drafter MTP, troque na sua stack de inferência, meça latência e taxa de aceitação nos seus prompts reais. O claim «sem perda de qualidade» é verificável token-by-token comparando outputs contra o alvo não-MTP — rode esse diff sobre uma amostra de requests de produção como seu sanity check. Para deploy edge de Gemma 4 E2B/E4B, a otimização de clustering de camada embedder mira especificamente o bottleneck de logit-calc que limita a latência small-model em silício móvel/edge — esse é o caso em que speculative decoding normalmente não compensa, e o fix do Google é o detalhe arquitetural para ler com cuidado se você shipa Gemma 4 on-device. A licença Apache 2.0 mantém o caminho comercial aberto sem fricção de negociação. O próximo watch é se outros labs open-weight seguem com módulos drafter pré-treinados — uma vez que é table stakes, o imposto speculative-decoding-from-scratch desaparece pelo ecossistema aberto.
