Decodificação Especulativa: Definição e significado — Wiki de IA

Um modelo rascunho pequeno gera candidatos, o modelo grande verifica todos de uma vez. Acertos corretos = múltiplos tokens por etapa. Aceleração de 2–3x com qualidade de saída idêntica.

Por que isso importa

Uma das raras vitórias grátis na inferência de IA. Saída matematicamente idêntica, apenas mais rápida.

Em profundidade

A verificação é mais barata que a geração (paralela vs sequencial). O modelo rascunho deve ser pequeno mas similar. Taxa de aceitação de 70–85% é típica. Ajuda mais com texto previsível.

Como Funciona

O modelo rascunho (tipicamente 1–7B parâmetros) gera K tokens candidatos rapidamente. O modelo grande verifica todos os K tokens em uma única passagem forward (porque a verificação pode ser paralelizada). Os tokens que o modelo grande teria gerado são aceitos; o primeiro rejeitado é substituído pelo token do modelo grande, e o processo recomeça.

Por Que É Grátis

O resultado é matematicamente idêntico ao que o modelo grande produziria sozinho — não é uma aproximação. A aceleração vem de trocar computação sequencial cara (gerar token por token no modelo grande) por computação paralela barata (gerar no modelo pequeno + verificar no grande). Funciona melhor quando o texto é previsível (código, prosa formal) e menos quando é criativo ou imprevisível.

Decodificação Especulativa

Por que isso importa

Em profundidade

Como Funciona

Por Que É Grátis

Conceitos relacionados