A verificação é mais barata que a geração (paralela vs sequencial). O modelo rascunho deve ser pequeno mas similar. Taxa de aceitação de 70–85% é típica. Ajuda mais com texto previsível.
O modelo rascunho (tipicamente 1–7B parâmetros) gera K tokens candidatos rapidamente. O modelo grande verifica todos os K tokens em uma única passagem forward (porque a verificação pode ser paralelizada). Os tokens que o modelo grande teria gerado são aceitos; o primeiro rejeitado é substituído pelo token do modelo grande, e o processo recomeça.
O resultado é matematicamente idêntico ao que o modelo grande produziria sozinho — não é uma aproximação. A aceleração vem de trocar computação sequencial cara (gerar token por token no modelo grande) por computação paralela barata (gerar no modelo pequeno + verificar no grande). Funciona melhor quando o texto é previsível (código, prosa formal) e menos quando é criativo ou imprevisível.