La verificación es más barata que la generación porque puede hacerse en paralelo (un solo forward pass para verificar N tokens) mientras que la generación es secuencial (un forward pass por token). El modelo borrador debe ser pequeño pero similar al modelo principal en distribución.
Las tasas de aceptación típicas son del 70–85%. Esto significa que de cada, digamos, 5 tokens que propone el borrador, 3-4 se aceptan y se genera 1 adicional en el paso de verificación. El beneficio neto es 4-5 tokens por paso en lugar de 1. El texto predecible (código boilerplate, prosa formulaica) tiene tasas más altas; el texto creativo o técnico complejo tiene tasas más bajas.
Lo más importante: la salida es matemáticamente idéntica a la del modelo grande sin decodificación especulativa. No hay compromiso de calidad. Es un truco puramente de eficiencia. Funciona porque verificar en paralelo es O(1) en pasos de modelo mientras que generar es O(N). Los modelos borrador típicos tienen entre 100M y 2B parámetros para servir un modelo principal de 70B+.