Décodage spéculatif : Définition et signification — Wiki IA

Un petit modèle brouillon génère des candidats, le grand modèle les vérifie tous en même temps. Les bonnes devinettes = plusieurs tokens par étape. Accélération de 2 à 3x avec une qualité de sortie identique.

Pourquoi c'est important

Un des rares « repas gratuits » de l'inférence IA. Sortie mathématiquement identique, juste plus rapide.

En profondeur

La vérification est moins chère que la génération (parallèle vs séquentiel). Le modèle brouillon doit être petit mais similaire. Taux d'acceptation de 70 à 85% typique. Aide surtout avec le texte prévisible.

Décodage spéculatif

Pourquoi c'est important

En profondeur

Concepts connexes