Google ने आज Gemma 4 के लिए Multi-Token Prediction (MTP) drafters release किए — pre-trained lightweight drafter models जो target Gemma के साथ pair होते हैं out of the box speculative decoding के लिए। headline claim: target model के साथ token-by-token identical output के साथ inference में 3x तक तेज़ी। drafter future tokens का sequence propose करता है; target उन्हें parallel में verify करता है। जब verification draft token को reject करती है, generation उस position पर target की actual prediction पर fall back करती है, तो quality bit-exactly preserved रहती है। मायने रखने वाला architectural detail: drafters target का KV cache और activations share करते हैं, जो दो independent models (अलग cache states के साथ) चलाने की standard speculative-decoding overhead को sidestep करता है। edge variants (E2B, E4B) में embedder layer में «efficient clustering technique» है जो small-model inference में dominate करने वाले logit calculation bottleneck को address करता है। Apache 2.0, weights Hugging Face और Kaggle पर।
speculative decoding दो साल से hot inference optimization रहा है, पर practice में, builders को या तो अपने drafters train करने पड़े (significant काम), या generic small-model drafters use करने पड़े जो target की distribution अच्छी तरह capture नहीं करते (mediocre acceptance rates)। Google का Gemma 4 के लिए specifically tuned pre-trained drafters ship करना उस gap को बंद करता है — drop-in 3x speedup builder side पर training cost के बिना। KV-cache sharing architecturally significant choice है: vLLM जैसी standard speculative decoding implementations arbitrary draft model को target के साथ pair करती हैं और duplicated cache costs भुगतती हैं। KV state share करने का मतलब है कम memory footprint और तेज़ verification rounds। EAGLE (जो drafting के लिए target के hidden states use करता है) और Medusa (जो target को prediction heads add करता है) से comparison launch coverage में disclose नहीं; description से, MTP drafters spirit में EAGLE के closer दिखते हैं पर additional target heads के बजाय separate lightweight drafter weights के साथ।
ecosystem reading: speculative decoding open-weight models पर production inference के लिए expected baseline बन रहा है, और जो labs अपने main checkpoints के साथ pre-trained drafters ship करते हैं वो barrier significantly कम करते हैं। DeepSeek V3 ने model में built-in MTP heads ship किए। Mistral Medium 3.5 का coding tier इसके adjacent बैठता है, हालाँकि वहाँ का drafter approach disclose नहीं हुआ। Google का drafters को separate-but-cache-sharing modules बनाना design choice है जो builders को unified MTP-enabled checkpoint reload करने के बजाय अपने existing Gemma 4 deployment के लिए सिर्फ़ drafter pull करने देती है। production में self-hosted Gemma 4 चलाने वाले builders के लिए, upgrade path है: matching MTP drafter download करो, अपने inference framework में plug करो अगर वो KV-shared speculative decoding support करता है (vLLM और TensorRT-LLM दोनों करते हैं, config के साथ), अपने traffic पर acceptance rate measure करो। acceptance rate actual speedup determine करता है — 3x optimistic case है, real-world workload-dependent है।
practical move: अगर आप chat, code completion, या low-latency inference के लिए Gemma 4 production में चला रहे हो, ये इस हफ़्ते test करने वाली optimization है। MTP drafter pull करो, अपने inference stack में swap करो, अपने actual prompts पर latency और acceptance rate measure करो। «no quality loss» claim non-MTP target के against outputs compare करके token-by-token verifiable है — production requests के sample पर वो diff अपनी sanity check के तौर पर run करो। Gemma 4 E2B/E4B के edge deployment के लिए, embedder-layer clustering optimization specifically उस logit-calc bottleneck को target करती है जो mobile/edge silicon पर small-model latency limit करता है — वो case है जहाँ speculative decoding आम तौर पर pay off नहीं करती, और Google का fix architectural detail है carefully पढ़ने के लिए अगर आप Gemma 4 on-device ship करते हो। Apache 2.0 license commercial path negotiation friction के बिना open रखती है। अगला watch ये है कि क्या दूसरे open-weight labs pre-trained drafter modules के साथ follow करते हैं — एक बार ये table stakes हो जाए, speculative-decoding-from-scratch tax open ecosystem में गायब हो जाता है।
