Decodificación especulativa: Definición y significado — Wiki de IA

Un modelo borrador pequeño genera candidatos, y un modelo grande los verifica todos a la vez. Las conjeturas correctas significan múltiples tokens por paso. Aceleración de 2–3x con calidad de salida idéntica.

Por qué importa

Uno de los pocos “almuerzos gratis” en inferencia de IA. Salida matemáticamente idéntica, solo más rápida.

En profundidad

La verificación es más barata que la generación porque puede hacerse en paralelo (un solo forward pass para verificar N tokens) mientras que la generación es secuencial (un forward pass por token). El modelo borrador debe ser pequeño pero similar al modelo principal en distribución.

Tasas de aceptación

Las tasas de aceptación típicas son del 70–85%. Esto significa que de cada, digamos, 5 tokens que propone el borrador, 3-4 se aceptan y se genera 1 adicional en el paso de verificación. El beneficio neto es 4-5 tokens por paso en lugar de 1. El texto predecible (código boilerplate, prosa formulaica) tiene tasas más altas; el texto creativo o técnico complejo tiene tasas más bajas.

Implementación práctica

Lo más importante: la salida es matemáticamente idéntica a la del modelo grande sin decodificación especulativa. No hay compromiso de calidad. Es un truco puramente de eficiencia. Funciona porque verificar en paralelo es O(1) en pasos de modelo mientras que generar es O(N). Los modelos borrador típicos tienen entre 100M y 2B parámetros para servir un modelo principal de 70B+.

Decodificación especulativa

Por qué importa

En profundidad

Tasas de aceptación

Implementación práctica

Conceptos relacionados